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Beschreibung 

Verfahren und Computer-Anordnung zum Bereitstellen von 
Datenbankinformation einer ersten Datenbank und Verfahren zum 
rechnergestutzten Bilden eines statist! schen Abbildes einer 
Datenbank 

Die Erfindung betrifft ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinf ormation einer 
ersten Datenbank und ein Verfahren zum rechnergestutzten 
Bilden eines statistischen Abbildes einer Datenbank. 

Heutzutage sind kaum noch Vorg&nge zu beobachten, die ohne 
Uhterstlltzung eines Computers ablaufen. Haufig wird bei 
Einsatz eines Computers im Rahmen eines Prozesses der Prozess 
mittels des Computers ttberwacht oder zumindest 
prozessspezif ische Daten von dem Computer auf gezeichnet- und 
protokolliert, beispielsweise Daten tiber die einzelnen 
Prozessschritte des Prozesses und deren Ergebnisse oder 
Zwischenergebnisse . 

Beispielsweise wird tlblicherweise in einem Call Center im 
Detail f estgehalten, wann welcher Anruf in dem Call Center 
eingegangen ist, wann der jeweilige eingegangene Anruf von 
einem Mitarbeiter des Call Centers bearbeitet wurde, zu 
welchem anderen Mitarbeiter des Call Centers mSglicherweise 
weitergeleitet worden ist, etc. 

Ferner werden tlblicherweise in der Prozess-Automatisierung 
umfangreiche Protokoll-Dateien gebildet, in denen Daten tiber 
die einzelnen Prozesse gespeichert werden. 

Ein drittes Anwendungsgebiet ist in der Telekommunikation zu 
sehen; so werden beispielsweise in den Switches eines 
Mobilfunknetzes Protokolldaten tiber den in den Switches 
auftretenden Datenverkehr ermittelt und gespeichert. 
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SchlieBlich werden auch in einem Webserver-Computer 
Protokolldaten uber den Datenverkehr, beispielswerse Uber dxe 
Zugriffshaufigkeit auf von dem Webserver-Computer 
bereitgestellter Information, gebildet. 

Treten im verlauf eines Prozesses Probieme auf, so wird 
Ublicherweise der Betreiber der Anlage, auf welcher der 
Prozess ausgefuhrt wird, vor Ort versuchen, die Ursache fur 
die aufgetretenen Probieme zu finden. Gelingt ihm das nrcht, 
so wendet er sich meist an den Hersteller der. Anlage. 
Herstellerseitig ist es zum Auffinden der Problemursache 
erforderlich, auf die protokollierten Prozessdaten, allgemem 
auf die auf gezeichneten Protokolldaten der Anlage 
zuzugreifan Derzeit hat eine die Protokolldaten enthaltende 
Protokolldatei eine erhebliche GroBe, haufig in der 
GrSBenordnung einiger Dutzend GByte. Eine solche 
Protokolldatei least sich aus diesem Grund nur schlecht zu 
dem Hersteller der Anlage, beispielsweise unter Verwendung 
von FTP (File Transfer Protocol) Gbertragen. Selbst wenn 
Zreichend schnelle Kommunikationsverbindungen *erfugung 
s tehen, ist es fur den Hersteller einer Anlage schwrerrg und 
teuer, fur eine grBBere Anzahl von Kunden dre 
Protokolldateien zu speichern und zu verarbeiten. 

, Auch in anderen Bereichen besteht der Bedarf, zu 
Analysezwecken groBe Datenmengen zu tibertragen, 

■ beispielsweise uberall dort, wo groBe Datenbanken offentlrch 
zuganglich sind, urn der Of f entlichkeit das Forschen unter 
Verwendung der Datenbankdaten zu ermSglichen. Die 

D Datenbankdaten kBnnen Daten sein aus <6f fentlichen) 

Forschungsprojekten (beispielsweise Daten erner Gen-Datenbank 
Oder einer Protein-Datenbank) , wetterdaten, demography 
D ften, Daten, die zum Zwecke einer Hasterfahndung (rn dres.em 
Fall nur einem begrenzten Kreis befugter Nutzer) zur 

5 verfugung gestellt werden sollen. Insbesondere der Bererch 
ler Bi^tecLologie ist heutzutage von erheblichem Interesse. 
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Es existieren eine Vielzahl von Datenbanken in diesem 
Bereich. 

Ferner ist es insbesondere aus Grilnden der Datensicherheit 
haufig wUnschenswert, nicht alle konkreten Inf ormationen der 
Datenbankdaten weiterzugeben. 

Eine bekannte Moglichkeit, Informationen einer Datenbank Uber 
ein Kommunikationsnetz von einem Server-Computer einem 
Client-Computer bereitzustellen, besteht darin, Diagnose- 
Oder Statistik-Werkzeuge zur Analyse der in den Datenbanken 
enthaltenen Daten direkt serverseitig zu installieren, welche 
beispielsweise unter Verwendung eines Web-Servers, welcher 
auf dem Server-Computer installiert ist und eines auf einem 
Client-Computer installierten Web-Browser-Programms genutzt 
werden konnen. HierfUr konnen so genannte OLAP-Werkzeuge (On- 
Line Analytical Processing-Werkzeuge) eingesetzt werden, 
deren Betrieb allerdings sehr aufwendig und teuer ist. Bei 
einigen OLAP-Werkzeugen ist die zu verarbeitende Datenmenge 
sogar schon so grofi geworden, so dass die OLAP-Werkzeuge 
versagen. 

Ferner ist es ftir den Betreiber einer Anlage sehr unbequem 
und teuer, -diese Werkzeuge serverseitig zu betreiben, da das 
unmittelbare Interesse an der Information ja bei dem Nutzer 
des Client-Computers liegt und haufig der Betreiber der 
Anlage nicht bereit ist, die zusatzlichen Kosten fUr die 
Bereitstellung und Wartung des Server-Computers und der OLAP- 
Werkzeuge zu tragen. 

Weiterhin ist bei einer grofien Anzahl von Client-Computern 
und einer grofien Zahl von Anfragen an den Server-Computer die 
Beantwortung aller Anfragen sehr rechenaufwendig, weshalb die 
Hardware des Server-Computers haufig unakzeptabel teuer ist. 

Der Erfindung liegt das Problem eines effizienten Zugriffs 
auf den Inhalt einer Datenbank Uber ein Kommunikationsnetz 
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unter Wahrung der Vertraulichkeit der in der Datenbank 
enthaltenen Daten zugrunde. 

Das Problem wird durch ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinformation einer 
ersten Datenbank sowie durch ein Verfahren zum 
rechnergesttitzten Bilden eines statistischen Modells einer 
Datenbank mit den Merkmalen gemafi den unabhangigen 
Patentansprtichen gelost. 

Das allgemeine Szenario, welches von der Erfindung adressiert 
wird, ist auf folgende Weise charakterisiert : An einem ersten 
Ort A steht eine grofie Menge von in einer Datenbank 
gespeicherten Daten zur Verftigung. An einem zweiten Ort B 
will jemand diese zur Verftigung stehenden Daten nutzen. Der 
Nutzer an dem Ort B ist weniger an einzelnen Datensatzen 
interessiert, sondern in erster Linie an der die 
Datenbankdaten charakterisierenden Statistik. 

Bei einem Verfahren zum rechnergesttitzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank wird fur die 
erste Datenbank ein erstes statistisches Abbild 
beispielsweise in Form eines gemeinsamen 
Wahrscheinlichkeitsmodells gebildet. Dieses Abbild bzw. 
Modell reprasentiert die statistischen Zusammenhange der in 
der ersten Datenbank enthaltenen Datenelemente . Das erste 
statistische Abbild wird in einem Server-Computer 
gespeichert. Ferner wird das erste statistische Abbild von 
dem Server-Computer uber ein Kommunikationsnetz zu einem 
Client-Computer ubertragen und das empfangene erste 
statistische Abbild wird von dem Client-Computer 
weiterverarbeitet . 

Eine Computer-Anordnung zum rechnergesttitzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank weist einen 
Server-Computer und einen Client-Computer auf, die 
miteinander mittels eines Kommunikationsnetzes gekoppelt 
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sind. In dem Server-Computer ist ein erstes statistisches 
Abbild, welches far eine erste Datenbank gebildet 1st, 
gespeichert. Das erste statistische Abbild beschreibt die 
statistischen Zusammenhange der in der ersten Datenbank 
enthaltenen Datenelemente. Der Client-Computer ist derart 
eingerichtet, dass mit ihm eine Weiterverarbeitung, 
beispielsweise eine Analyse, des von dem Server-Computer tiber 
das Kommunikationsnetz zu dem Client-Computer ubertragenen 
ersten statistischen Abbildes moglich ist. 

Bei einem Verfahren zum rechnergesttltzten Bilden eines 
statistischen Modells einer Datenbank, welche eine Vielzahl 
von Datenelementen aufweist, kann ein so genanntes EM- 
Lernverfahren (Expectation Maximisation-Lernverfahren) auf 
die Datenelemente durchgefiihrt werden, sowie auch alternativ 
andere Lernverf ahren. Die Struktur des gemeinsamen (alle 
Felder in der Datenbank umfassenden) 

Wahrscheinlichkeitsmodells kann im Rahmen des allgemeinen 
Formalismus der Bayesianischen Netze (synonym auch Kausale 
Netze oder allgemeine Graphische Probabilistische Netze) 
festgelegt werden. Hierbei wird die Struktur durch einen 
gerichteten Graphen festgelegt. Der gerichtete Graph weist 
Knoten und die Knoten miteinander in Bezug setzende Kanten 
auf, wobei die Knoten vorgebbare Dimensionen des Modells bzw. 
des Abbildes entsprechend den in der Datenbank vorhandenen 
Werten beschreiben. Einige Knoten k6nnen dabei auch nicht 
beobachtbaren GrSfien (so genannten latenten Variablen, wie 
sie beispielsweise in [1] beschrieben sind) entsprechen. Im 
Rahmen eines allgemeinen EM-Lernverf ahrens werden fehlende 
Oder nicht beobachtbare Grofien durch Erwartungswerte oder 
erwartete Verteilungen ersetzt. Im Rahmen des 
erfindungsgemaBen verbesserten EM-Lernverf ahrens werden nur 
die Erwartungswerte ermittelt zu den fehlenden Grofien, deren 
Eltern-Knoten beobachtbare Werte aus der Datenbank sind. 

Als statistisches Abbild wird vorzugsweise ein statistisches 
Modell verwendet. 



200217402 



6 



Unter einem statistischen Modell ist in diesem Zusammenhang 
jedes Modell zu verstehen, das alle statistischen 
Zusammenhange bzw. die gemeinsame Hauf igkeitsverteilung der 
5 Daten einer Datenbank darstellt (exakt oder approximate) , 
beispielsweise ein Bayesianisches (oder Kausales) Netz, em 
Markov Netz oder allgemein ein Graphisches Probabilistisches 
Modell, ein „Latent Variabel Models ein statistisches 
• ciustering-Modell oder ein trainiertes kUnstliches Neuronales 
10 Netz. Das statistische Modell kann somit als ein 

vollstandiges, exaktes oder approximatives Abbild der 
Statistik der Datenbank aufgefasst werden. 

im zusammenhang der Weiterverarbeitung des statistischen 
15 Modells durch den Client-Computer bedeutet dies, dass erne 
Analyse nicht wie gemaB dem Stand der Technik basierend auf 
den Datenelementen der Datenbank selbst oder basierend auf 
einem OLAP-Werkzeug erfolgt. Stattdessen werden alle 
gewunschten (bedingten) Wahrscheinlichkeitsverteilungen aus 
20 dem gemeinsamen Wahrscheinlichkeitsmodell, dem statistischen 
Modell, ermittelt. 

Diese erfindungsgemalie Vorgehensweise hat insbesondere die 

folgenden Vorteile: 

25 . Verglichen mit der Datenbank selbst ist das statistische 
Modell' sehr klein, da das statistische Modell ein 
komprimiertes Abbild der Statistik der Datenbank ist 
(nicht der einzelnen Eintrage in der Datenbank) , 
vergleichbar einem gemafi dem JPEG-Standard komprimiertem 

30 digitalen Bild, welches ein komprimiertes aber 

approximatives Abbild des digitalen Bildes darstellt; 
Das statistische Modell selbst kann mit wesentlich 
geringerem Hardware-Aufwand sehr schnell evaluiert 
werden . 



35 



Je nach verwendetem Verfahren zum Trainieren des 
statistischen Modells kann eine erhebliche Kompression der 
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Datenbank erzielt werden. Unter Verwendung eines in der 
erzielbaren Kompression skalierbaren Lernverf ahrens wurde 
eine Kompression von bis zu einem Faktor 1000 erreicht, wobei 
die in dem statistischen Modell enthaltene Information 
qualitativ ausreichend war. Die komprimierten statistischen 
Modelle lassen sich somit sehr einfach beispielsweise mittels 
elektronischer Post (E-Mail), FTP (File Transfer Protocol) 
Oder anderer Kommunikationsprotokolle zur Datentibertragung 
von dem Server-Computer zu dem Client-Computer ubertragen 
Das ubertragene statistische Modell kann somit clientseitig 
zur nachfolgenden statistischen Analyse genutzt werden. 

Der Server-Computer und der Client-Computer konnen uber ein 
beliebiges Kommunikationsnetz, beispielsweise uber ein 
Festnetz oder tlber ein Mobilfunknetz miteinander zur 
ubertragung des statistischen Modells gekoppelt sein. 

Die Erfindung ist zum Einsatz in jedem Bereich geeignet, in 
dem es wunschenswert ist, nicht die gesamten Daten einer 
grofien Datenbank zu ubertragen, sondern nur eine moglichst 
geringe Datenmenge zu ubertragen bei Erhalt eines moglichst 
groJJen Informationsgehalts der ubertragenen Daten 
hinsichtlich der Datenbank, die von den ubertragenen Daten ' 
beschrieben werden. 

Ein Vorteil der Erfindung ist insbesondere darin zu sehen, 
dass es ermoglicht wird, in einem hohen Mafie die 
Vertraulichkeit von individuellen Eintragen in die Datenbank 
zu gewahrleisten, da nicht alle Datenelemente der Datenbank 
selbst ubertragen werden, sondern nur eine statistische 
Representation der Datenelemente der Datenbank, womit 
clientseitig eine statistische Analyse der Datenbank moglich 
wird, ohne dass clientseitig die konkreten, mSglicherweise 
geheim zu haltenden Daten verftigbar sind. 

Ferner kann ein Betreiber beispielsweise einer technischen 
Anlage die statistischen Inhalte der von ihm gefilhrten 
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Datenbank einem Nutzer eines Client-Computers unkomplxzxert 
und in der Kegel ohne Verletzung von Datenschutzrichtlxnxen, 
beispielsweise mittels eines auf dem Server-Computer 
installierten Web-Servers bereitgestellt werden, in welchem 
Fall die statistischen Modelle mittels eines auf exnem 
Client-Computer installierten Web-Browser-Programms abgerufen 

we r den konnen. 

Die Erfindung kann mittels Software, das heifit mittels eines 
Computerprogramms, in Hardware, das hexfit mittels einer 
speziellen elektronischen Schaltung, oder in belxebxg 
hybrider Form, das heiAt teilweise in Software und texlwexse 
in Hardware, realisiert werden. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspruchen. 

Die folgenden Ausgestaltungen der Erfindung betreffen die 
Verfahren und die Computer-Anordnung. 

Gemaii einer Ausgestaltung der Erfindung ist es vorgesehen, 
unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client- Computer gespexcherten 
zweiten Datenbank ein statistisches Gesamt-Modell bzw. exn 
statistisches Gesamt-Abbild zu bilden, welches zumxndest 
einen Teil der in dem ersten statistischen Abbxld und xn der 
zweiten Datenbank enthaltenen statistischen Informatxon 
aufweist . 

, Gemafi einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, far eine zweite Datenbank ein zweites 
statistisches Abbild bzw. ein zweites statistisches Model! z 
bilden, welches die statistischen Zusammenhange der xn der 
zweiten Datenbank enthaltenen Datenelemente reprasentxert . 
5 Das zweite statistische Abbild wird uber das 
" Kommunikationsnetz zu dem Client-Computer ubertragen und 
unter Verwendung des ersten statistischen Abbxldes und des 
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zweiten statistischen Abbildes wird von dem Client-Computer 
ein statistisches Gesamt-Abbild gebildet, welches zumindest 
einen Teil der in dem ersten statistischen Abbild und in dem 
zweiten statistischen Abbild enthaltenen statistischen 
Information aufweist. 

Diese Ausgestaltungen der Erfindung tragen beispielsweise 
folgendem allgemeinen erf indungsgemaJien Szenario Rechnung, 
dass fast jeder Vorgang in einem Unternehmen, insbesondere 
auch jeder Kundenkontakt und jede Bestellung und Auslieferung 
eines Produktes mit Rechnerunterstutzung ablauft. In diesem 
Zusammenhang werden ublicherweise die Vorgange in dem 
Unternehmen Oder jede Aktion eines Kunden im Detail in einer 
Protokolldatei auf gezeichnet, beispielsweise im Rahmen von so 
genannten Customer Relationship Management Systemen (CRM- 
Systemen) oder im Rahmen von Supply Chain Management 
Systemen. Die protokollierten Daten stellen fur viele 
Unternehmen ein erhebliches Vermogen dar. Dementsprechend 
zeigt sich ein Trend der Unternehmen, dass sie ihre Daten, 
beispielsweise Daten tiber Kunden, in „Wissen tiber Kunden-' 
umsetzen. Es hat sich jedoch gezeigt, dass die in einem 
Unternehmen vorhandenen Informationen beispielsweise tiber 
einen Kunden (aber auch uber den Betrieb einer technischen 
Anlage oder ahnlichem) nur sehr einseitig ist. Haufig fehlen 
wesentliche Attribute aller oder einzelner Kunden oder 
technischen Anlagen, die z.B. ein Zielgruppen-gerechtes 
Marketing, allgemein eine qualitativ hochwertige 
Datenauswertung, erst ermoglichen. Ein Beispiel im Rahmen der 
Kundeninformation ist in dem Alter des Kunden zu sehen oder 
in deren Familienstand sowie die Anzahl der Kinder. Es hat 
sich jedoch herausgestellt, dass bei Zusammenftihren der 
Information mehrerer Datenbanken, seien es Kundendatenbanken 
oder auch Datenbanken mit Informationen tiber technische 
Prozesse, ein erheblich genaueres und vollstandigeres „Bild* 
(im Fall des Marketings, ein „Kundenbild ,R ) ergeben. Die 
gemeinsame Nutzung der Datenbanken bzw. des Wissens mehrerer 
Unternehmen wiirde somit far die nachfolgende Auswertung eine 
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erhebliche Verbesserung ermoglichen. Der Austausch von Daten 
tiber Unternehmensgrenzen hinweg stellt aber aus folgenden 
Griinden keine zufrieden stellende Losung ftlr das oben 
beschriebene Problem dar: 

Unternehmen sind tiblicherweise nicht bereit, Details 
tiber ihre Kunden oder ihre technischen Prozesse an 
andere Unternehmen weiterzugeben. Der Kundenstamm eines 
Unternehmens und damit. die Detail-Daten tiber die Kunden 
stellen haufig ein wesentliches UntemehmensvermSgen 
dar . 

Ein Austausch der Datenbankdaten bedeutet technxsch 
auch, dass grofte Mengen an Daten ubertragen und 
gespeichert werden mtissen. 

Aus datenschutzrechtlichen Grtinden sind dem Austausch 
von Datenbankdaten, insbesondere von personenbezogenen 
Daten enge Grenzen gesetzt. 

Selbst wenn Daten zwischen zwei Unternehmen ausgetauscht 
werden, entsteht ohne zusatzliche Mafinahmen zunachst nur 
ftir die Kunden, die in beiden Unternehmen bekannt sind, 
ein verbessertes Bild. Ftir Kunden, die nur in einem 
Unternehmen bekannt sind, bleiben die Daten und damxt 
das Bild Ober diese Kunden weiterhin unvollstandig. 

Zusammenfassend ergeben sich somit anschaulich folgende 
erfindungsgemafie Aspekte: 

Das Wissen tiber Kunden oder Prozesse oder Anlagen, 
allgemein die in einer Datenbank enthaltene Information, 
wird so dargestellt, 

dass es stark komprimiert und damit technisch auf 
) einfachere Weise zwischen den Computern 

austauschbar ist, und 

dass wesentliche Zusammenhange dargestellt werden, 
dass jedoch Detail-Informationen nur in einem 
definierbaren Mafi wiederzuf inden sind, so dass 
5 Unternehmen mit weniger Bedenken solche 

Informationen austauschen und keine 
Datenschutzrichtlinien verletzt werden. 
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• Die auf diese Weise dargestellte Information aus • 

verschiedenen Quellen (alas verschiedenen Datenbanken) 
kann z'u einem Ges^mtbild kombiniert werden; welches von 
alien' teilnehmenden Unternehmen genutzt. werden kann. 

5 '/'..' 

Durch die oben beschriebenen Ausgestaltungen wird es somit 
nunmehr moglich, unt^r Wahrung des Datenschutzes unter 
• ' ReduzierUng der benotigten Bandbreite zur Ubertragung der . 
statistischen Information, .diese den Nutzern bere'itzustellen,. 
10 welche clientseitig die statistischen Modell . zu einem 
Gesamtbild, dem Gesamt -Modell, zusammenfiihren konnen. . 

• Gemafi * einer anderen Aus-gestaltung der Erfindung werden die. 
statistischen Modell in unterschiedlichen Server-Computern 
15 gespeichert und jeweils .Vqn dort Uber ein Kommunikationsrietz. 
■ zu dem Client-Computer iibertfagen. • ' 

In diesem Zusammenhang ist anzuiuerken, dass die statistischen 
Modelle von den, Server-Computer (n) gebildet werden kSnnen, 
20 alternativ .auch von anderen, moglicherweise speziell dazu 
eingerichteten Computern, dn welchem Fall, die gebildsten 
statistischen- Modellen noch zu den Server-Computer (n) , ' 
beispielsweise Uber ein lokales Netz, tibertragen werden. 

• ■ • 

25 Somit kdnnen die statistischen Modelle in einem heterogenen 
Netz, beispielsweise im Internet, weltweit aufsehr einfache 
Weise bereitgestellt werden. 

Mindestens eines. der statistischen Modelle kann mittels eines 
30 skalierbaren Verfahrens gebildet werden, mit dem der 

Kompressionsgrad des statistischen Modells verglichen mit den 
in der j.eweiligen Datenbahk enthaltenen Datenelementen 
einstellbar- ist. 

35 Mindestens eines der statistischen Modelle kann ferner 

mittels eines EM-Lernverf ahrehs oder Varianten davon (wie sie 
beispielsweise* in [2] beschfieben sind) oder mittels eiries 
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gradientenbasierten Lernverf ahrens gebildet werden. 
Beispielsweise kann das so genannte APN-Lemverf ahren 
(Adaptive Probabilistic Network-Lemverf ahren) als. 
gradientenbasiertes Lernverf ahren eingesetzt werden. 

,5 Allgemein k6nnen alle Likelihood-basierten Lernverf ahren oder 
Bayesianische Lernverf ahren genutzt werden, wie sie 
beispielsweise in [3] beschrieben sind. .Die Struktur der 
gemeinsamen' Wahrscheinlichkeitsmodelle kann dabei in Form 
eines Graphischen Probabilistischen Modells (eines 

10 Bayesianischen Netz.es, eines Markov Netzes oder einer 

Combination davon) spezifiziert werden'. Einem Spezialfall ■ 
' dieses ^llgemeinen Formalismus entsprechen so genannte Latent 

•Variable Models oder. statistische Clustering-Modelle . Darttber 
hinaus kann jedes Verf ahren zum Lernen nicht nur der 
15 Parameter,- sondern auch der Struktur Graphischer 

Probabilistischer Modelle aus verfttgbaren Datenelementen 
genutzt werden, beispielsweise jedes beliebige 
Struktur lernverf ahren [4] und [5] . 

20 : Die erste Datenbank oder/und die zweite' Datenbank kann/konnen 
Datenelemente aufweisen, ' welche mindestens eine technische 
Anlage beschreiben. Die die mindestens eine technische An 1 age 
beschreibenden Datenelemente konnen zumindest teilweise an 
der technischeji Anlage gemessene Werte darst'ellen, welche das 
Betriebsverhalten der -technischen Anlage beschreiben. 




'bemaB einer Ausgestaltung der erf indungsgemaflen Computer- 
Anordnung ist in dem Client-Computer eine zweite Datenbank 
mit- Datenelementen gespeichert. Der Client-Computer weist 
30 eine Einheit zum Bilden eines statistischen Gesamt ^Modells 
unt.ef Verwendung des. ersten statistischen Modells und den 
Datenelementen der zweiten Datenbank, auf, wobei das 
statistische Gesamt -Modell zumindest einen Teil der in dem 
ersten statistisphen Modell und in der zweiten Dateiibank 
35 enthaltenen statistischen Information aufweist. 
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Gemafi einer anderen Ausgestaltung der erf indungsgemafien 
Computer-Anordnung 1st ein zweiter Server-Computer 
vorgesehen, in dem ein zweites statistisches Modell, welches 
fttr eine zweite Datenbank gebildet ist, gespeichert ist, 
5 wobei das zweite statistische Modell die statistischen 
Zusammenhange der in der zweiten Datenbank enthaltenen 
Datenelemente reprasentiert • Der' Client-Computer ist mittels 
des Kommunikatiohsnetzes ebenfalls mlt dem zweiten Server- ! 
Computer gekoppelt . . Der Client -Computer , weist eine Einheit 
10 : zum Bilden eines- .statistischen Gesamt -Modells unter 

Verwendung des ersten .statistischen Modells und des zweiten. 
statistischen Modells, auf, wobei das statistische Gesamt- 

«odell zumindest einen ( Teil der in dem ersten statistischen 
odell und in dem zweiten statistischen Modell enthaltenen 
15 ' statistischen Information. aufweist. 

• . . . , * i. 

Ein Ausftihruhgsbeispiel der Erfindung ist in den Figuren*. \ 

dargestellt und wird im Folgenden naher erlautert. 
20 ,Es zeigen " 

ein Blockdiagramm einer Computer-Anordnung gemafi . 
einem etsten Ausftihrungsbeispiel der Erfindung; • 

ein Blockdiagramm einef/Computer-Anordnung gemafi 
einem zweiten Ausftihfungsbeispiel der Erfindung; 

ein Blockdiagramm einer Computer-Anordnung gemafi 
einem dritten Ausftihrungsbeispiel der Erfindung; 

ein Blockdiagramm. einer Computer-Anordnung gemafi 
einem vierten Ausftihrungsbeispiel der Erfindung; und 

ein Blockdiagramm einer Computer-Anordnung gemafi 
einem fUnften Ausftihrungsbeispiel der Erfindung. 



Figur 1 



25 Figur 2 




Figur 3 

3.0" 

Figur 4 
Figur . 5 

35 
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Fig.l zeigt eine Compute r-Anordnung 100 gemafi einem ersten 
Ausfiihrungsbeispiel der Erfindung. 

Die Computer-Anordnung 100 wird in einem Call Center 
eingesetzt. Die Computer-Anordnung 100 weist eine Vielzahl 
von Telefon-Endgeraten 101 auf, welche mittels 
Telefonleitungen 102 mit einem Call-Center-Computer 103, 104, 
105 verbunden sind. In dem Call Center werden die 
Telef onanruf e von Mitarbeitern des Call Centers 
entgegengenommen und die Bearbeitung der eingehenden 
Telefonanrufe, insbesondere der Zeitpunkt des eingehenden 
Anrufs, die 'Dauer, eine Angabe tiber den Mitarbeiter, der den 
Anruf entgegengenommen hat, ein Angabe tiber den Grund des 
Anrufs sowie die Art der Bearbeitung des Anrufes oder auch 
beliebige andere Angaben werden von den Call-Center-Computern 
103, 104, 105 auf gezeichnet . 

Jeder Call-Center-Computer 103, 104, 105 weist auf 

• eine erste Eingangs-/Ausgangsschnittstelle 106, 107, 108 
zum 6ffentlichen Telefonnetz zur Entgegennahme des 
jeweiligen Telef onanruf es, 

• einen Prozessor 109, 110, 111, 

• einen Speicher 112, 113, 114, und 

• eine zweite Eingangs-/Ausgangsschnittstelle 115, 116, 
117 zu einem lokalen Netzwerk 121 des Call Centers. 

Die oben genannten Komponenten innerhalb jedes Call-Center- 
Computers 103, 104, 105 sind mittels eines Computerbusses 
118, 119, 120 miteinander gekoppelt. 

Die Call-Center-Computer 103, 104, 105 sind mittels des 
lokalen Netzwerkes 121 mit einem Server-Computer 122 . 
gekoppelt- Der Server-Computer 122 weist eine erste Eingangs- 
/Ausgangsschnittstelle 123 zu dem lokalen Netzwerk 121, einen 
Speicher 124, einen Prozessor 127 sowie eine zur 
Kommunikation ttber das Internet eingerichtete zweite 
Eingangs-/Ausgangsschnittstelle 128 auf, welche Komponenten 
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mittels eines Computerbusses 129 miteinander gekoppelt sind. 
Der Server-Computer 122 dient gemafi diesem 

Ausftlhrungsbeispiel als Web-Server-Computer, wie im Folgenden 
noch naher erlautert wird. 

Die von den Call-Center-Computern 103, 104, 105 
aufgezeichneten Daten werden liber das lokale Netzwerk 121 zu 
dem Server-Computer 122 tlbertragen und dort in einer 
Datenbank 12 6 gespeichert. 

Ferner ist in dem Speicher 124 noch ein statistisches Modell 
125 gespeichert, welches die statistischen Zusammenhange der 
in der Datenbank 126 enthaltenen Datenelemente reprasentiert . 

Das statistische Modell 125 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 125 werden im Folgenden noch im Detail beschrieben. 

Gemafi diesem Ausftlhrungsbeispiel der Erfindung wird das 
statistische Modell 125 automatisch in regelm&fiigen 
Zeitintervallen erneut, jeweils basierend auf den aktuellsten 
Daten der Datenbank 12 6, gebildet. 

Das statistische Modell 125 wird von dem Server-Computer 122 
automatisch zur Obertragung an einen Oder an mehrere Client- 
Computer 132 bereitgestellt . Der Client-Computer 132 ist ttber 
eine zweite Kommunikationsverbindung 131, beispielsweise 
einer Kommunikationsverbindung, welche eine Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll ermoglicht, mit der 
zweiten Eingangs-/Ausgangsschnittstelle 128 des Server- 
Computers 122 gekoppelt. 

Der Client-Computer 132 weist ebenfalls eine Eingangs- 
/Ausgangsschnitts telle 133, eingerichtet zur Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 134 und einen Speicher 135. 
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Das in einer elektronischen Nachricht 130 von dem Server- 
Computer 122 an den Client-Computer 132 ttbertragene 
statistische Modell 125 wird in dem Speicher 135 des Client- 
Computers 132 gespeichert. Der Benutzer des Client-Computers 
132 ftthrt niinmehr eine beliebige, nutzerspezi'f ische 
statistische Analyse auf das statistische Model! 125 und 
damit „indirekt n auf die Daten der Datenbank 126 aus, ohnd 
dass die grofie Datenbank 12.6 an den Client-Computer 132 
Ubertragen werden muss. 

Ziel der clientseitigen statistischen Analyse kann. eine 
Optimierung des Call Centers sein. Gem&B diesem 
Ausftihrungsbexspiel werden insbesondere Analysen hinsichtlich 
der Beantwortung der folgenden Fragen durchgeftthrt : 

„Naoh welcher Wartezeit in . einer Warteschlange des Call. 
Centers gibt ein Telef onanruf er ttblicherweise auf ? v 

„Gibt es regionale odef tageszeitliche Abhangigkeiten 
zwischeh den in dem Call Center eingehenden Telef onanruf en?^ 

„Zu welchem' Zeitpunkt und in Abhangigkeit welcher anderen 
Merkmale treten ' welche Anfragen auf und wie viele Mitarbeiter 
sollten dementsprechend in dem Call Center bere'itstehen?* 

„Welche Routing-Strategien, ftihren zu welchen Ergebnissen?* - 

i ■ 

Somit werden die Analysen zur Beantwortung der oben genannten 
Fragen von dem Benutzer des Client-Computers 132 
durchgeftthrt . Anschliefiend werden dem Betreiber des Call 
Centers ai*s den Analyseergebnissen geeignete Mafinahmen zur 
optimierteh Betreiben des Call Centers gegeben. • 

Fig. 2 zeigt eine Computer-Anordnung 200 gemafi einem zweiten 
Ausftthrungsbeispiel der Erfindung. 
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Die Computer-Anordnung 200 wird im Bereich der Biotechnologie 
eingesetzt . 

Die Computer-Anordnung 200 weist einen Server-Computer 201 
auf, der einen Speicher 202 , einen Prozessor 203 sowie eine 
zur Kommunikation gemafi den TCP/IP-Protokollen eingerichtete 
Eingangs-/Ausgangsschnittstelle 204 auf- Die Komponenten sind 
mittels eines Computerbusses 205 miteinander gekoppelt. 

In dem Speicher 202 ist eine Datenbank 206 mit genetischen 
Sequenzen oder Minosciuresequenzen zusammen mit den Sequenzen 
zugeordneten Zusatzinf ormationen gespeichert. 

Ftir einen Forscher, gemafi diesem Ausftihrungsbeispiel ein 
Nutzer eines der Client-Computer 209, 210, 211, der die 
Eigenschaften einer (neuen) Sequenz untersucht, ist es haufig 
von erheblichem Interesse, Sequenzen mit gleichen oder 
ahnlichen Eigenschaften zu finden. Zum Durchsuchen der von 
dem Oder den Server-Computern 201 offentlich bereitgestellten 
Datenbanken stellt der Forscher mittels des ttber ein 
Kommunikationsnetz 208 mit dem Server-Computer 201 
gekoppelten Client-Computers 209, 210, 211 entsprechende 
Such-Anfragen an den oder die Server-Computer 202. In dem 
Server-Computer 201 ist ein statistisches Modell 207 auf die 
gleiche Weise wie gemafi dem ersten Ausftihrungsbeispiel 
gebildet worden und dort gespeichert. 

Jeder Client-Computer 209, 210, 211 weist auf 

• eine zur Kommunikation gemafi den TCP/IP-Protokollen 
eingerichtete Eingangs-/Ausgangsschnittstelle 212, 213, 
214, 

• einen Prozessor 215, 216, 217, 

• einen Speicher 218, 219, 220. 

Nach erfolgter Anfrage eines Client-Computers 209, 210, 211 
libertragt der Server-Computer 201 das statistische Modell 206 
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an den Client-Computer 209, 210, 211 in einer elektronischen 
Nachricht 221, 222, 223. 

N ach Empfang des statistischen Modells 206 wird von dem 
5 Nutzer des Client-Computers 209, 210, 211 die » 
untersuohende Sequenz mit dem statistischen Modell 206 
verglichen. Ergebnis einer statistischen analyse xst erne 
Angabe, wie viele ausreichend ahnliche Sequenzen in der 
Datenbank 206 existieren und durch welche Exgenschaften dzese 
10 Sequenzen sich auszeichnen. 

Fig. 3 zeigt eine Computer-Anordnung 300 gemaB einem drittsn 
Ausftthrungsbeispiel der Brfindung. 

15 Die Computer-Anordnung 300 weist einen ersten Computer 301 
und einen zweiten Computer 309 auf . 

Der erste Computer 301 weist einen speicher 302, 
Prozessor 303 sowie eine zur Kommunikatzon gemaB den TCP/IP 
20 Kommunikationsprotokollen eingerichtete Eingangs- 

/Ausgangsschnittstelle 304 auf, welche mittels eines 
Computerbusses 305 miteinander gekoppelt sznd. 

Der erste Computer 301 ist ein computer ' eines Autohauses, 
welches in der in dem Speicher 302 gespeicherten ^en- 
Datenbank Informationen zu Vomame und Naohname der Kunden, 
Uber wohnort und genutzten Fahrzeugtyp, nicht ^edoch uber 
Alter, Familienstand und Gehaltseingang enthalt. 

Der zweite Computer 309 weist eine zur Ko^un ikation gem** 
den TCP/IP-Kommunikationsprotokollen eingenchtete Ezngangs 
/Ausgangsschnittstelle 310, einen Speicher 311 
Prozessor 312 auf, welche mittels eines Computerbusses 313 
miteinander gekoppelt sind. 

Der zweite Computer 309 ist ein Computer einer mit dem 
AutoLus kooperierenden Bank. In dem Speicher 311 des zwe.ten 




25 
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Computers 309 ist eine zweite Kunden-Datenbank 314 
gespeichert. In der zweiten Kunden-Datenbank 314 sind zu den 
Kunden der Bank Inf ormationen zu Vorname und Nachname der 
Kunden, deren Wohnort, Familienstand, Alter und 
Gehaltseingang, enthalten, nicht jedoch zu dem von dem 
jeweiligen Kunden genutzten Fahrzeugtyp. Die Bank kann somit 
aus ihren gespeicherten Daten nicht ermitteln, welche 
Familien mit welchem Gehaltseingang typischerweise welche 
Autos nutzen. 

Urn diese Informationen zu erhalten, ware die Zusammenlegung 
der beiden Kunden-Datenbanken erf order lich, was jedoch aus 
Datenschutz-rechtlichen Grtinden nicht gestattet ist und von 
den beiden Firmen ttblicherweise auch nicht erwunscht ist. 

Erf indungsgemali wird ausgenutzt, dass in beiden Datenbanken 
das Wissen jedenfalls approximativ vorhanden ist, urn einen 
Zusammenhang beispielsweise zwischen Fahrzeugtyp und 
Gehaltseingang herzustellen. 

In dem ersten Computer wird aus diesem Grund Uber die 
Datenbank ein statistisches Modell 306 gemafi dem EM- 
Lernverf ahren gebildet. Das gegenOber der Datenbank 
komprimierte statist ische Modell 306 wird zu dem zweiten 
Computer 309, welcher mit dem ersten Computer 301 
bidirektional tiber das Internet 308 gekoppelt ist, in einer 
elektronischen Nachricht 307 tibertragen. 

Nach Empfang des statistischen Modells 306 wird dieses von 
dem zweiten Computer 309 mit der zweiten Kunden-Datenbank 314 
zu einem statistischen Gesamt -Modell 315 zusammengef tihrt . 

Zur Erlauterung des Zusammenfiihrens des statistischen Modells 
306 mit der zweiten Kunden-Datenbank 314 zu dem statistischen 
Gesamt -Modell 315 wird angenommen, dass zwei Partner A und B 
statistische Modelle austauschen wollen. Der Partner A 
verftigt Ober die Attribute W, X, Y, welche symbolisch flir 
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eine Vielzahl beliebiger Attribute stehen. Der Partner B 
verftigt uber die Attribute X, Y, Z. Der Partner B (gemafi 
diesem Ausftthrungsbeispiel das Autohaus) stellt dem Partner A 
(gemafi diesem Ausfiihrungsbeispiel die Bank) ein statistisches 
5 Modell seiner Daten zur Verftigung, das im Folgenden mit 
Pb(X,Y,Z) bezeichnet wird. 

Ziel des Partners A ist es, aus seinen Daten zusammen mit den 
Daten seiner Datenbank ein statistisches Gesamt-Modell 
10 . P(W,X,Y,Z) zu erstellen. 

Hierzu sind gemafi diesem Aus fiihrungsbei spiel die folgenden 
zwei Verfahren vorgesehen: 

• Der Partner A leitet aus dem statistischen Modell 
15 P B (X,Y,Z) ein bedingtes Modell PB(ZiX,Y) ab, um unter 

dessen Verwendung aus den ihm bekannten Inf ormationen X 
und Y seiner Kunden die Eigenschaft Z seiner Kunden zu 
schatzen. Jeder Kunde bekommt als Wert der Variable Z 
(als Eintrag in einer zusatzlichen Spalte in der 
20 Datenbank) den Wert zugeordnet, der nach Maftgabe der 

Wahrscheinlichkeitsverteilung Pb(Z|X,Y) am 
wahrscheinlichsten ist. Mit den auf diese Weise 
erganzten Inf ormationen W, X, Y und Z ttber jeden Kunden 
kann der Partner A nunmehr ubliche statistische 
25 Analyseverfahren hinsichtlich aller vier Attribute 

anwenden oder ein gemeinsames statistisches Modell , das 
Gesamt -Modell Pb(W,X,Y, Z), welches anschaulich ein 
virtuelles gemeinsames Datenbank-Abbild darstellt r 
erstellen. 

30 • Statt fttr das Attribut Z den wahrscheinlichsten Wert zu 
erganzen, kann es in einer alternativen Vorgehensweise 
sinnvoller sein, an Stelle der fehlenden Variable Z eine 
ganze Verteilung Uber seine Werte zu erganzen und beim 
Erzeugen des statistischen Gesamt-Modells zu verwenden. 

35 Um in diesem Zusammenhang teilweise fehlende Information 

statistisch konsistent im Sinne der so genannten 
Likelihood eines Modells zu handhaben, wird das EM- 
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Lernverf ahren eingesetzt. In jedem Lernschritt des 
iterativen EM-Lernverf ahrens werden basierend auf den 
aktuellen Parametern Schatzungen (Expected Sufficient 
Statistics) tiber die fehlenden GroJBen erzeugt, die an 
die Stelle der fehlenden Grofien treten. In dem EM- 
Lernverf ahren kann das bedingte Modell Pb(Z|X,Y) dazu 
verwendet werden, auch ftir die Variable Z 
Erwartungswerte oder Expected Sufficient Statistics- 
Werte zu ermitteln und so dieses Lernverf ahren 
konsistent zu erweitern, urn ein gemeinsames Modell 
verteilter Daten zu erzeugen. 

Somit hat die Bank nunmehr die gesamte statistische 
Information verftigbar und kann entsprechende Analysen tiber 
die Daten durchftihren. 

In diesem Zusammenhang ist anzumerken, dass das oben 
beschriebene Szenario auch umgekehrt durchgeftihrt werden 
kann, d.h. dass die Bank ein statistisches Modell tiber die 
zweite Kunden-Datenbank erstellt und dieses an das Autohaus 
tlbermittelt, welches seinerseits ein statistisches Gesamt- 
Modell bildet. Ftir das Autohaus ware es beispielsweise 
wtinschenswert, das Alter seiner Kunden zu kennen, deren 
Familienstand und deren Gehaltseingang, oder jedenfalls eine 
Schatzung des Alters, des Familienstandes und des 
Gehaltseingangs . Basierend auf diesen Informationen konnen 
den Kunden somit passende Produkte viel gezielter angeboten 
werden, beispielsweise ist einer jungen Familie mit einem 
durchschnittlichen Gehaltseingang sicherlich ein anderes Auto 
anzubieten als einem Single mit einem hohen Gehalt. 

Fig. 4 zeigt eine Compute r-Anordnung 400 gemSB einem vierten 
Ausfiihrungsbei spiel der Erfindung. 

Gemafi diesem Ausftihrungsbei spiel sind eine Vielzahl von n 
Computern 401, 413, 420 vorgesehen, die jeweils in 
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tlbereinstimmung mit dem dritten AusftAhrungsbeispiel eine 
Kunden-Datenbank ftihren. 

Der erste Computer 401 weist einen Speicher 402 , einen 
5 Prozessor 403 sowie eine zur Kommunikation gemafi den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 404 auf, welche mittels eines 
Computerbusses 405 miteinander gekoppelt sind. 

10 Der erste Computer 401 ist ein Computer eines Autohauses, 
welches in der in dem Speicher 402 gespeicherten Kunden- 
Datenbank Inf ormationen zu Vorname und Nachname der Kunden, 
tiber Wohnort und genutzten Fahrzeugtyp, nicht jedoch tiber 
Alter, Familienstand und Gehaltseingang enthalt. 

15 

Ober die Kunden-Datenbank wird von dem erst en Computer 401 
ein erstes statistisches Modell 406 gebildet und in dem 
Speicher 402 gespeichert. 

20 Der zweite Computer 413 weist einen Speicher 414, einen 

Prozessor 415 sowie eine zur Kommunikation gemcLii den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 416 auf, welche mittels eines 
Computerbusses 417 miteinander gekoppelt sind. 

25 

Der zweite Computer 413 ist ein Computer einer Bank, welche 
in der in dem Speicher 414 gespeicherten Kunden-Datenbank die 
im dritten Ausfiihrungsbei spiel genannten Inf ormationen 
enthalt. ttber die zweite Kunden-Datenbank wir4 von dem 
30 zweiten Computer 413 ein zweites statistisches Modell 418 
gebildet und in dem Speicher 414 gespeichert. 

Der n-te Computer 420 hat ebenfalls eine Kunden-Datenbank 
gespeichert. Der n-te Computer 420 weist einen Speicher 421, 
35 einen Prozessor 422 sowie eine zur Kommunikation gemaft den 
TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 423 auf, welche mittels eines 
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Computerbusses 424 miteinander gekoppelt sind. Uber die 
Kunden-Datenbank in dem n-ten Computer 420 ist ebenfalls 
mittels des EM-Lernverf ahrens ein statistisches Modell 425 
gebildet und in dem Speicher 421 des n-ten Computers 420 
gespeichert . 

Die Computer 401, 413, 420 sind mittels einer jeweiligen 
Kommunikationsverbindung 408 mit einer Client-Computer 409. 

Der Client-Computer 409 weist einen Speicher 411, einen 
Prozessor 412 sowie eine zur Kommunikation gemaB den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 410 auf, welche mittels eines 
Computerbusses 42 6 miteinander gekoppelt sind. 

Die Computer 401, 413, 420 Ubermitteln die statistischen 
Modelle 406, 418, 525 an den Client-Computer 409 in 
jeweiligen elektronischen Nachrichten 407, 419, 427, welcher 
diese in dessen Speicher 410 speichert. 

Im Folgenden wird zur einfacheren Darstellung das 
AusfUhrungsbeispiel nur unter BerUcksichtigung des ersten 
statistischen Modells 406 und des zweiten statistischen 
Modells 418 n&her erl&utert. Es ist jedoch anzumerken, dass 
erfindungsgem&B eine beliebige Anzahl statistischer Modelle 
zu einem Gesamt -Modell zusammengefUhrt werden kann, 
beispielsweise mittels wiederholten Durchftihrens der im 
Folgenden beschriebenen Verf ahrensschritte . 

Im Unterschied zu dem dritten AusfUhrungsbeispiel ist es 
gemaB dem dritten AusfUhrungsbeispiel das Ziel, mehrere 
statistische Modelle miteinander zu einem Gesamt -Modell zu 
kombinieren. 

Somit wird in Anlehnung an die im dritten AusfUhrungsbeispiel 
verwendeten Nomenklatur von dem Partner A ebenfalls ein 
statistisches Modell P A (W,X,Y) erstellt und dann werden die 
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Modelle Pa(W,X,Y) und Pb(X,Y,Z) zu einem statistischen 
Gesamt-Modell P(W,X,Y,Z) kombiniert. 

Das Gesamt-Modell P(W,X,Y,Z) kann basierend auf den beiden 
Modeller* Pa(W,X,Y) und Pb(X,Y,Z) definiert werden als : 

• P(W,X,Y,Z) = PA(W/X f Y)P B (Z|X, Y) oder als 

• P(W,X,Y,Z) = P B (X,Y,Z)P A (W|X,Y) . 

Auch Kombinationen aus beiden Vorgehensweisen sind 
erf indungsgemaB vorgesehen. FUr den Partner A 1st es am 
sinnvollsten, die erste obige Alternative zu wahlen. Damit 
verfttgt er ttber ein statistisches Gesamt-Modell 426, welches 
ihm in einer approximativen Weise ermdglicht, auch die 
Abhangigkeiten zwischen den Attributen W und Z zu analysieren 
(in diesem Ausftihrungsbeispiel die Abhangigkeit zwischen 
Fahrzeugtyp und Gehaltseingang) . Basierend auf dem Gesamt- 
Modell 426 werden beispielsweise bedingte 

Wahrscheinlichkeitsverteilungen der Form P(X|Z), z.B. eine 
Verteilung tiber oder eine Affinitat zu Fahrzeugtypen bei 
einem gegebenen Gehaltseingang, ermittelt. Hierzu wird iiber 
die Variablen X und Y marginalisiert • 

Zur Eriauterung wird angenommen, dass die Ergebnisse aus dem 
Gesamt-Modell 426 in einer Art eines zweistufigen Prozesses 
zustande kommen. Zunachst wird aus der Variable W auf die 
gemeinsamen Variablen X und Y basierend auf dem Modell 
Pa(W,X,Y) geschlossen. Entsprechend alien danach erlaubten 
Kombinationen ftir die Variablen X und Y wird die bedingte 
Wahrscheinlichkeitsverteilung P B (Z|X,Y) (Pradiktion der 
Variable Z aus den Variablen X und Y) genutzt, urn die 
Verteilung ftir die Variable Z zu bestimmen. 

Im Unterschied zu dem Fall, in dem alle vier Variablen in 
einer Datenbank zu finden sind, erfolgt die Schlussfolgerung 
somit erfindungsgemSfi indirekt; ahnlich wie bei einer 
Fltlsterpost konnen dabei Inf ormationen verloren gehen. 
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Im. schlimmsten Fall, nSmlich wenn kein Oberlapp zwischen den 
beiden statistischen Abbildern vorliegt, dann ist auch keine 
Kombination der beiden Modelle moglich. Allerdings ist 
5 beispielsweise ftir den Fall, dass gemeinsame Variablen in den 
beiden Modellen vorhanden sind, moglich, ein Gesamt-Modell zu 
bilden, selbst wenn in den beiden Ausgangs-Datenbanken keine 
gerae ins amen Kunden, beispielsweise kein gemeinsamer 
Kundens chilis sel, vorhanden ist. 

10 

Das Gesamt-Modell 426 P(W,X,Y,Z) kann numerisch einfach 
^ gehandhabt werden, wenn der Oberlapp zwischen diesen 

statistischen Modellen nicht zu groii ist, vorzugsweise 
kleiner als 10 gemeinsame Variablen. In dem Fall eines groJJen 
15 „Uberlapp-Raums* konnen zusatzliche Approximationen verwendet 
werden, urn die Ausftihrung der folgenden Summen zu 
beschleunigen, welche gemafi den obigen Ausflihrungsbeispielen 
uber alle gemeinsamen Zustande der gemeinsamen Variablen X 
und Y gebildet werden mtissen: 

20 

P(W|Z) oc £ P A (W, X, Y) • ffe(z|X, Y) 
x,y 

bzw. 




p(w, z) = £ *a( w ' x ' y ) * ?b( z I x ' y ) ■ 

x,y 



Die Summen konnen insbesondere sehr geschickt approximiert 
werden basierend auf einem Ansatz durch Einftthren einer 
zusatzlichen kOnstlichen Variable H und zusatzlichen 
30 bedingten Verteilungen (Tafeln im Falle diskreter Variable) 
p(h|x, y) und p(z]h) der Form: 



PapproxW, Z) « £ P A(W, X, Y)£ P(H | X, Y) ■ Pq(Z I H) 
x,y h 
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bzw. 



?approx(W, X, Y, Z) « Pa<W, * Y)£ P(H I X, Y) *b(Z | H) . 



c Die struktur bzw. die Parametrisierung der bedingten 
5 verteil^gen p(h|x, y) und p(z|h) bzw. die Form der Abhangxgkext 
zwischen X,Y und H einerseits und H und Z andererseits wxrd 

so gewahlt, dass die obigen Summen einf ^^vT^"^^ 
Die Parameter der bedingten Verteilungen p(h|X, y) und 
10 werden so bestimmt, dass die approximative Gesamtverteilung 
Papprox(W,X,Y,Z) mSglicht gut der gewOnschten Vertexlung 

p( W , X, Y, Z) = Pa(W, X, Y) • Pb(z|X, y) 

15 entspricht. Ala Kostenfunktion kann hierbei insbesondere die 
" Log-Likelihood bzw. die Kullback-Leibler-Distanz verwendet 

werden. Als Optimierungsverf ahren bieten sich daber wxederum 
ein EM-Lernverfahren oder ein Gradienten-basxertes 
Lernverf ahren an. 

20 Das Auffinden optimaler Parameter kann und darf durchaus 
rechenaufwendig sein. Sobald die beiden 
Wahrscheinlichkeitsmodelle dann zu einem Gesamtmodell 
„fusioniert* sind kann das Gesamtmodell in einer sehr 

25 effizienten Art und Weise genutzt werden. 

Es bietet sich insbesondere an, die Variable H als eine 
versteckte Variable einzuftihren, also die Verteilung 
P(W,X,Y,H) zu parametrisieren als 

p( W , X, Y, H) = P(H) • P(W, X f Y|H) 

mit einer so genannten a priori Verteilung P (H) . 

35 in dem Fall in dem das Modell P(W,X,Y) bereits ursprunglich 
als ein Latent Variable Model parametrisiert wurde, 
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Ek<W, X, Y) = £ P^(X, Y, Z 1 H) • P^H), 
h 

kann unmittelbar die bereits vorhandene latente Variable H 
5 genutzt werden, 

Statt einer versteckten Variable H kQnnen auch mehrere 
Variablen eingefUhrt werden. Gleichzeitig kann auch ftlr das 
Modell PB zur Vereinf achung der Numerik eine versteckte 
10 Variable K eingeftthrt werden. Eine Approximation des 
Gesamtmodells P(W,X,Y,Z) niromt damit z.B. die Form an 

P(W, X, Y, Z) * £ *A&' Y/ Z I H) • P A (H)E P < K i H > * ^ Z 1 K) • 
h k 

15 In diesem Modell kdnnen Summen liber den Raum des ttberlapps 
bestehend aus X und Y einfach durch bekannte 
Inf erenzverfahren (beispielsweise das so genannte Junction- 
Tree-Verf ahren) ausgeftihrt werden. Ftir die Fusion der beiden 
Modelle ist lediglich die bedingte Verteilung p(k|h) durch 

20 bekannte Lernverf ahren zu bestimmen. 

Urn das Ziel zu erreichen kleine, austauschbare jedoch aber 
sehr genaue „Abbilder einer Datenbank* zu generieren, sind 

•insbesondere sehr skalierbare Lernverf ahren, die hoch 
komprimierte Abbilder generieren, erwttnscht. Gleichzeitig 
sollen sich die Abbilder effizient fusionieren, d.h. 
zusammenflihren lassen, wozu man insbesondere auch sehr 
effizient mit fehlenden Informationen umgehen k6nnen sollte. 
Bekannte Lernverf ahren sind insbesondere dann langsam, wenn 
30 in den Daten viele der Belegungen der Felder fehlen. 

Fig. 5 zeigt eine Compute r-Anordnung 500 gemafi einem ftinften 
AusfUhrungsbeispiel der Erfindung. 
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Die Computer-Anordnung 500 wird im Rahmen des Austauschs von 
Kundeninformation, gemafi diesem Ausftihrungsbeispiel im Rahmen 
des Austauschs von Adress information von Kunden, eingesetzt. 
Die Computer-Anordnung 500 weist einen Server-Computer 501 
sowie einen oder mehrere mit diesem tiber ein 
Telekommunikationsnetz 502 verbundenen Client-Computer 503 
auf. 

Der Server-Computer 501 weist einen Speicher 504, einen 
Prozessor 505- sowie eine zur Kommunikation iiber das Internet 
eingerichtete Eingangs-/Ausgangsschnittstelle 50 6 auf, welche 
Komponenten mittels eines Computerbusses 507 miteinander 
gekoppelt sind. Der Server-Computer 501 dient gemafi diesem 
Ausftihrungsbeispiel als Web-Server-Computer, wie im Folgenden 
noch naher erlautert wird. 

In dem Speicher 504 ist eine grofie Kunden- Da tenbank 508 
(insbesondere mit Adressinf ormation tiber die Kunden und das 
Kaufverhalten der Kunden beschreibende Information) 
gespeichert. Ferner ist in dem Speicher 504 noch ein 
statistisches Modell 509, welches von dem Server- Computer 501 
Ober die Kunden-Datenbank 508 gebildet worden ist, 
gespeichert, welches die statistischen Zusammenhange der in 
der Kunden-Datenbank 508 enthaltenen Datenelemente 
reprasentiert . 

Das statistische Modell 509 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 509 werden im Folgenden noch im Detail beschrieben. 

Gemafi diesem Ausf Uhrungsbei spiel der Erfindung wird das 
statistische Modell 509 automatisch in regelmafiigen 
vorgegebenen Zeitintervallen erneut, jeweils basierend auf 
den aktuellsten Daten der Kunden-Datenbank 508, gebildet. 
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Das statistische Modell 509 wird von dem Server-Computer 501 
automatisch zur Ubertragung an den oder an mehrere Client- 
Computer 503 bereitgestellt . 

5 Der Client-Computer 503 weist ebenfalls eine Eingangs- 

/Ausgangsschnittstelle 510, eingerichtet zur Kommunikation 
gemaB dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 511 und einen Speicher 512. Die Komponenten des 
Client-Computers sind mittels eines Computerbusses 513 
10 miteinander gekoppelt. 

•Das in einer elektronischen Nachricht 514 von dem Server- 
Computer 501 an den Client-Computer 503 tibertragene 
statistische Modell 509 wird in dem Speicher 512 des Client- 
15 Computers 503 gespeichert. 

In diesem Zusammenhang ist anzumerken, dass in dem 
statistischen Modell 509 die Details der Kunden-Datenbank 
508, insbesondere die tatsachlichen Adressen der Kunden, 
20 nicht enthalten ist. Das statistische Modell 509 enthait 
allerdings statistische Information tiber das Verhalten, 
insbesondere tiber das Kauf verhalten der Kunden. 

Der Benutzer des Client-Computers 503 wahlt nunmehr eine fiir 
ihn interessante Gruppe von Kunden, d.h. einen fiir ihn 
I I interessanten Teil 515 des statistischen Modells 509, der ein 
fiir das Unternehmen des Benutzers des Client-Computers 503 
interessierendes Kauf verhalten beschreibt, aus. Die 
Information 515 tiber den ausgewahlten Teil des statistischen 
30 Modells 509 tibertr&gt der Client-Computer 503 in einer 

zweiten elektronischen Nachricht 516 zu dem Server-Computer 
501. 

Unter Verwendung der empfangenen Information liest der 
35 Server-Computer 501 die mittels des Teils 515 des 

statistischen Modells 509 bezeichneten Kunden und die 
zugehorige Kunden-Detailinf ormation 517, insbesondere die 
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Adressen der Kunden, aus der Kunden-Datenbank 508 aus und 
tlbermittelt die ausgelesene Kunden-Detailinformation 517 in 
einer dritten elektronischen Nachricht 518 zu dem Client- 
Computer 503, 

Auf diese Weise ist es mSglich, beispielsweise fUr eine 
Marketing-Kampagne seitens des Benutzers des Client-Computers 
503 gezielt die Adressen der gemafi der Kunden-Datenbank 508 
ftir die Kampagne interessantesten Kunden des Unternehmens des 
Server-Computers 501 auszuw&hlen und von dem Server-Computer 
501 zu erbitten. Ein erheblicher Vorteil ist ferner darin zu 
sehen, dass der Server-Computer 501 nur die Inf ormationen an 
den Client-Computer 503 tlbermittelt, die auch an diesen 
tibermittelt werden dttrfen. 

Diese Ubermittlung erfolgt gemaB einer Ausgestaltung der 
Erfindung gegen Bezahlung. Anders ausgedrttckt wird somit eine 
sehr effizientes so genanntes „On-Line Listbroking* 
realisiert. 

Im Folgenden werden verschiedene skalierbare Verfahren zum 
Bilden eines statistischen Modells angegeben. 

Zur besseren Veranschaulichung der bevorzugt eingesetzten 
Verbesserung eines EM-Lernverf ahrens im Falle eines Naiven 
Bayesianischen Cluster Modells werden im Folgenden einige 
Grundlagen- des EM-Lernverf ahrens naher erlautert: 

Mit X = {x^, k = l,... f K} wird einen Satz von K statistischen 
Variablen (die z.B. den Feldern einer Datenbank entsprechen 
konnen) bezeichnet . 

Die Zustande der Variablen werden mit kleinen Buchstaben 
bezeichnet. Die Variable Xi kann die Zustande x^i, xi^, ... 
annehmen, d.h. Xi e {xi,i,i = 1, .../Li}. Li ist die Anzahl der 
Zustande der Variable Xi . Ein Eintrag in einem Datensatz 
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(einer Datenbank) besteht nun aus Werten ftir alle Variablen, 
wobei x n b x?>, X3, ...) den 7c-ten Datensatz bezeichnet. In 

dem 7t-ten Datensatz ist die Variable Xi in dem Zustand x£# 

die Variable X2 in dem Zustand x£ t usw. Die Tafel hat M 

Eintrage, d.h. {x 7 *, 7t = 1, ...,m}. Zusatzlich gibt es eine 
versteckte Variable Oder eine Cluster-Variable, die im 
Folgenden mit Q bezeichnet wird; deren ZustSnde sind 
foi, i = 1, ...,n}. Es gibt also N Cluster, 

In einem statistischen Clustering-Modell beschreibt P(Q) eine 
a priori Verteilung; P(©j_) ist das a priori Gewicht des i-ten 
Clusters und p(x|a>i) beschreibt die Struktur des i-ten 

Clusters oder die bedingte Verteilung der beobachtbaren (in 
der Datenbank enthaltenen) Graven X = {x^, k = 1, ...,k} in dem 

i-ten Cluster. Die a priori Verteilung und die bedingten 
Verteilungen fttr jedes Cluster parametrisieren zusammen ein 
gemeinsames Wahrscheinlichkeitsmodell auf X u CI bzw. auf X. 

In einem Naiven Bayesian Network wird vorausgesetzt, dass 
K 

p(xj©i) mit Y\ pfckfai) faktorisiert werden kann. 
k=l 

Im Allgemeinen wird darauf gezielt, die Parameter des 
Modells, also die a priori Verteilung p(£l) und die bedingten 
Wahrscheinlichkeitstaf eln p(x]©) derart zu bestimmen, dass das 

gemeinsame Modell die eingetragenen Daten moglichst gut 
widerspiegelt . Ein entsprechendes EM-Lernverf ahren besteht 
aus einer Reihe von Iterationsschritten, wobei in jedem 
Iterationsschritt eine Verbesserung des Modells (im Sinne 
einer so genannten Likelihood) erzielt wird. In jedem 
Iterationsschritt werden neue Parameter p neu (..-) basierend 
auf den aktuellen oder „alten* Parametern p alt (.-0 geschatzt. 

Jeder EM-Schritt beginnt zun&chst mit dem E-Schritt, in dem 
^Sufficient Statistics'" in dafiir bereitgehaltenen Tafeln 
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ermittelt werden. Es wird mit Wahrscheinlichkeitstaf eln 
begonnen, deren EintrSge mit Null-Werten initialisiert 
werden. Die Felder der Tafeln werden im Verlauf des E- 
Schrittes mit den so genannten Sufficient Statistics s(fl) und 
5 s(x, Q) gefiillt, indem ftlr jeden Datenpunkt die fehlenden 
Informationen (also insbesondere die Zuordnung jedes 
Datenpunktes zu den Clustern) durch Erwartungswerte erganzt 
werden • 

10 Urn Erwartungswerte ftir die Clustervariable Q zu berechnen 
ist die a posteriori Verteilung p alt ^Wi[x 7C J zu ermitteln. 

Dieser. Schritt wird auch als „Inf erenzschritt* bezeichnet. 

Im Falle eines Naive Bayesian Network ist die a posteriori 
15 Verteilung ftir Q nach der Vorschrift 

p ait rwi^] = 4p ait (wi)fiP ait ki a i) 

v J k=l 

ftlr jeden Datenpunkt x u aus den eingetragenen Informationen 
20 zu berechnen, wobei — eine vorgebbare Normierungskonstante 

ist. 

Das Wesentliche dieser Berechnung besteht aus der Bildung des 
Produkts p alt (x3coi) tiber alle k = 1, ... f K. Dieses Produkt muss 
25 in jedem E-Schritt ftir alle Cluster i = 1,...,N und ftlr alle 
Datenpunkte x n f it = 1, ...,M gebildet werden. 

Ahnlich aufwendig oft noch aufwendiger ist der 
Inferenzschritt ftir die Annahme anderer 
30 Abhangigkeitsstrukturen als einem Naive Bayesian Network, und 
beinhaltet damit den wesentlichen numerischen Aufwand des EM- 
Lernens . 
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Die Eintriige in den Tafeln s(Q) und s(x, ^) Sndern sich nach 

Bildung des obigen Produktes ftir jeden Datenpunkt 

x % , % = 1, ...,M, da S(a>i) urn p alt [ci) i |x^ fUr alle i addiert 

wird, bzw. eine Summe alle p* 1 ^©!^ 7 ^ gebildet wird. Auf 

entsprechende Weise wird s(x, ©i) (bzw. s(x] c/ Oi) far alle 
Variabeln k im Falle eines Naive Bayesian Network) jeweils um 
p^^cDilx 71 ^ ftir alle Cluster i addiert. Dieses schlieJJt 

zunachst den E (Expectation) -Schritt ab. 

Anhand dieses Schrittes werden neue Parameter p neu (Q) und 

p neu (x|Q) fUr das statistische Modell berechnet, wobei p(x|©i) 

die Struktur des i-ten Cluster oder die bedingte Verteilung 
der in der Datenbank enthaltenden GrQfien X in diesem i-ten 

Cluster darstellt. 

Im M (Maximisation) -Schritt werden unter Optimierung einer 
allgemeinen log Likelihood 

M N / \ 

L = Z lo ^ ZP^KJP^i) (1> 
tc=1 i=l 

neue Parameter p neu (Q) und p neu (x|n), welche auf den bereits 
berechneten Sufficient Statistics basieren, gebildet. 

Der M-Schritt bringt keinen wesentlichen numerischen Aufwand 
mehr mit sich. 

Somit ist klar, dass der wesentliche Aufwand des Algorithmus 
in dem Inf erenzschritt bzw. auf die Bildung des Produktes 

1*1 P alt ( x kl a) i) und auf die Akkumulierung der Sufficient 
k=l 

Statistics ruht. 
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Die Bildung von zahlreichen Null-Elementen in den 
Wahrscheinlichkeitstafeln p alt (x|©i) bzw. p alt ( x k|©i) lasst 
sich jedoch durch geschickte Datenstrukturen und Speicherung 
von Zwischenergebnissen von einem EM-Schritt zum nSchsten 
dazu ausnutzen, die Produkte effizient zu berechen. 

Zum Beschleunigen des EM-Lernverf ahrens wird die Bildung 
eines Gesamtproduktes in einem obigem Inf erenzschritt, 
welcher aus Faktoren von a posteriori Verteilurigen von 
ZugehSrigkeitswahrscheinlichkeiten ftir alle eingegebene 
Datenpunkte besteht, wie gewohnlich durchgef iihrt wird, sobald 
die erste Null in den dazu gehorenden Faktoren auftritt, wird 
die Bildung des Gesamtproduktes jedoch abgebrochen. Es lasst 
sich zeigen, dass ftir den Fall, dass in einem EM-Lernprozess 
ein Cluster ftir einen bestimmten Datenpunkt das Gewicht Null 
zugeordnet bekommt, dieser Cluster auch in alien weiteren EM- 
Schritten ftir diesen Datenpunkt das Gewicht Null zugeordnet 
bekommen wird. 

Somit wird eine sinnvolle Beseitigung von Uberf lUssigen 
numerischen Aufwand gewahrleistet, indem entsprechende 
Ergebnisse von einem EM-Schritt zum n&chsten 

zwischengespeichert werden und nur ftir die Cluster, die nicht 
das Gewicht Null haben, bearbeitet werden. 

Es ergeben sich somit die Vorteile, dass aufgrund des 
Bearbeitungsabbruchs beim Auftreten eines Clusters mit Null 
Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch 
far alle weiteren Schritte, besonders bei der Bildung des 
Produkts im Inf erenzschritt, das EM-Lernverf ahren insgesamt 
deutlich beschleunigt wird. 

Im Verfahren zur Ermittlung einer in vorgegebenen Daten 
vorhandenen Wahrscheinlichkeitsverteilung werden 
Zugehorigkeitswahrscheinlichkeiten zu bestimmten Klassen nur 
bis zu einem Wert nahezu 0 in einem iterativen Verfahren 
berechnet, und die Klassen mit 
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Zugehcirigkeitswahrscheinlichkeiten unterhalb eines 
auswSLhlbaren Wertes im iterativen Verfahren nicht weiter 
verwendet . 

In einer Weiterbildung des Verfahrens wird eine Reihenfolge 
der zu berechnenden Faktoren derart bestimmt, dass der 
Faktor, der zu einem selten auftretenden Zustand einer 
Variabel gehort, als erstes bearbeitet wird. Die selten 
auftretenden Werte konnen vor Beginn der Bildung des Produkts 
derart in einer geordneten Liste gespeichert werden, dass die 
Variabeln je nach HSufigkeit ihrer Erscheinung einer Null in 
der Liste geordnet sind. 

Es ist weiterhin vorteilhaft, eine logarithmische Darstellung 
von Wahrscheinlichkeitstaf eln zu benutzen. 

Es ist weiterhin vorteilhaft, eine dtinne Darstellung (sparse 
representation) der Wahrscheinlichkeitstaf eln zu benutzen, 
z.B. in Form, einer Liste, die nur die von Null verschiedenen 
Element e enthalt . 

Ferner werden bei der Berechnung von Sufficient Statistics 
nur noch die Cluster beriicksichtigt, die ein von Null 
verschiedenes Gewicht haben. 

Die Cluster, die ein von Null verschiedenes Gewicht haben, 
konnen in eine Liste gespeichert werden, wobei die in der 
Liste gespeicherte Daten Pointer zu den entsprechenden 
Cluster sein konnen. 

Das Verfahren kann weiterhin ein Expectation Maximisation 
Lernprozess sein, bei dem in dem Fall dass ftlr ein Datenpunkt 
ein Cluster ein a posteriori Gewicht „Null* zugeordnet 
bekommt, dieser Cluster in alien weiteren Schritten des EM- 
Verfahrens ftir diesen Datenpunkt das Gewicht Null erhalt und 
dass dieser Cluster in alien weiteren Schritten nicht mehr 
beriicksichtigt werden muss. 
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Das Verfahren kann dabei nur noch Ober Cluster laufen, die 
ein von Null verschiedenes Gewicht haben. 

I. Erstes Beispiel in einem Inf erenzschritt 

a) Bildung eines Gesamtproduktes mit Unterbrechung bei 
Nullwert 

Far jeden Cluster a>i in einem Inf erenzschritt wird die 
Bildung eines Gesamtproduktes durchgeftihrt . Sobald die erste 
Null in den dazu gehorenden Faktoren, welche beispielsweise 
aus einem Speicher, Array oder einer Pointerliste 
herausgelesen werden konnen, auftritt, wird die Bildung des 
Gesamtproduktes abgebrochen. 

Im Falle des Auftretens eines Nullwertes wird dann das zu dem 
Cluster gehdrende a posteriori Gewicht auf Null gesetzt. 
Alternativ kann auch zuerst geprUft werden, ob zumindest 
einer der Faktoren in dem Produkt Null ist. Dabei werden alle 
Multiplikationen far die Bildung des Gesamtproduktes nur dann 
durchgefUhrt, wenn alle . Faktoren von Null verschieden sind. 

Wenn hingegen bei einem zu dem Gesamtprodukt gehorender 
Faktor kein Nullwert auftritt, so wird die Bildung des 
Produktes wie normal fortgefahrt und der nSchste Faktor aus 
dem Speicher, Array oder der Pointerliste herausgelesen und 
zur Bildung des Produktes verwendet. 

b) Auswahl einer geeigneten Reihenfolge zur Beschleunigung 
der Datenverarbeitung 

Eine geschickte Reihenfolge wird derart gewahlt, dass, falls 
ein Faktor in dem Produkt Null ist, dieser Faktor mit hoher 
Wahrscheinlichkeit sehr bald als einer der ersten Faktoren in 
dem Produkt auftritt. Somit kann die Bildung des 
Gesamtproduktes sehr bald abgebrochen werden. Die Festlegung 
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der neuen Reihenfolge kann dabei entsprechend der Haufigkeit, 
mit der die Zustande der Variablen in den Daten auftreten, 
erfolgen. Es wird ein Faktor der zu einer sehr selten 
auftretenden Zustand einer Variable geh6rt, als erstes 
bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet 
werden, kann somit einmal vor dem Start des Lernverf ahrens 
festgelegt werden, indem die Werte der Variablen in einer 
entsprechend geordneten Liste gespeichert werden, 

c) Logarithmische Darstellung der Tafeln 

Urn den Rechenaufwand des oben genannten Verfahrens m6glichst 
einzuschranken, wird vorzugsweise eine logarithmische 
Darstellung der Tafeln benutzt, urn beispielsweise Underflow- 
Probleme. zu vermeiden. Mit dieser Funktion konnen 
ursprUnglich Null-Element e zum Beispiel durch einen positiven 
Wert ersetzt werden, Somit ist eine aufwendige Verarbeitung 
bzw. Trennungen von Werten, die nahezu Null sind und sich 
voneinander durch einen sehr geringen Abstand unterscheiden, 
nicht weiter notwendig. 

d) Umgehung von erhohter Summierung bei der Berechnung von 
Sufficient Statistics 

In dem Fall, dass die dem Lernverf ahr en zugegebenen 
stochastischen Variablen eine geringe 

Zugehorigkeitswahrscheinlichkeit zu einem bestimmten Cluster 
besitzen, werden im Laufe des Lernverf ahrens viele Cluster 
das a posteriori Gewicht Null haben. 

Urn auch das Akkumulieren der Sufficient Statistics in dem 
darauf folgenden Schritt zu beschleunigen, werden nur noch 
solche Cluster in diesem Schritt beriicksichtigt, die ein von 
Null verschiedenes Gewicht haben. 

Dabei ist es vorteilhaft, die von Null verschiedenen Cluster 
in einer Liste, einem Array oder einer ahnlichen 
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Datenstruktur gespeichert werden, die es erlaubt, nur die von 
Null verschiedenen Elemente zu speichern. 

II. Zweites Beispiel in einem EM Lemverfahren 

a) Nicht-Berttcksichtigung von Cluster mit Null-Zuordnungen 
ftir einen Datenpunkt 

Insbesondere wird hier in einem EM-Lernverf ahren von einem 
Schritt des Lernverf ahrens zum n&chsten Schritt fUr jeden 
Datenpunkt gespeichert, welche Cluster durch Auftreten von 
Nullen in den Tafeln noch erlaubt sind und welche nicht mehr. 

Wo im ersten Beispiel Cluster, die durch Multiplikation mit 
Null ein a posteriori Gewicht Null erhalten, aus alien 
weiteren Berechnungen ausgeschlossen werden, urn dadurch 
numerischen Aufwand zu sparen, werden in gemaB diesem 
Beispiel auch von einem EM-Schritt zum nachsten 
Zwischenergebnisse bezuglich Cluster-Zugehorigkeiten 
einzelner Datenpunkte (welche Cluster bereits ausgeschlossen 
bzw. noch zulassig sind) in zusatzlich notwendigen 
Datenstrukturen gespeichert. 

b) Speichern einer Liste mit Referenzen auf relevante Cluster 

Fur jeden Datenpunkt oder ftir jede eingegebene stochastische 
Variable kann zun&chst eine Liste oder eine ahnliche 
Datenstruktur gespeichert werden, die Referenzen auf die 
relevanten Cluster enthalten, die far diesen Datenpunkt ein 
von Null verschiedenes Gewicht bekommen haben. 

Insgesamt werden in diesem Beispiel nur noch die erlaubten 
Cluster, allerdings fUr jeden Datenpunkt in einem Datensatz, 
gespeichert. 

Die beiden obigen Beispiele kennen miteinander kombiniert 
werden, was den Abbruch bei „Null*-Gewichten im 
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Inferenzschritt ermoglicht, wobei in folgenden EM-Schritten 
nur noch die zuiassigen Cluster nach dem zweiten Beispiel 
berttcksichtigt werden. 

Eine zweite Variante des EM-Lernverf ahrens wird im Folgenden 
naher eriautert. Es ist darauf hinzuweisen, dass dieses 
Verfahren unabhangig von der Verwendung des auf diese Weise 
gebildeten statistischen Modells ist. 

Bezugnehmend auf das oben beschriebene EM-Lernverf ahren lSsst 
sich zeigen, dass das Erg&nzen fehlender Information nicht 
far alle GrOflen erfolgen muss* Erf indungsgemafi wurde erkannt, 
dass ein Teil der fehlenden Information „ignoriert* werden 
kann. Anders ausgedrttckt bedeutet dies, dass nicht versucht 
wird, etwas Uber eine Zuf allsvariable Y zu lernen aus Daten, 
in denen keine Information ttber die Zuf allsvariable Y (einem 
Knoten Y) enthalten ist oder dass nicht versucht wird, etwas 
tiber die Zusammenhange zwischen zwei Zuf allsvariablen Y und X 
(zwei Knoten Y und X) aus Daten, in denen keine Information 
Uber die Zuf allsvariablen Y und X enthalten ist. 

Damit wird nicht nur der numerische Aufwand zur Durchftthrung 
des EM-Lernverfahrens wesentlich reduziert, sondern es wird 
ferner erreicht, dass das EM-Lernverf ahren schneller 
konvergiert. Ein zusatzlicher Vorteil ist darin zu sehen, 
dass statistische Modelle mittels dieser Vorgehensweise 
leichter dynamisch aufbauen lassen, d.h. wahrend des 
Lernprozesses k5nnen leichter Variablen (Knoten) in einem 
Netz, dem gerichteten Graphen, erganzt werden. 

Als anschauliches Beispiel fttr das erf indungsgemafie Verfahren 
wird angenommen, dass ein statistisches Modell Variablen 
en thai t, die beschreiben, welche Bewertung ein Kinobesucher 
einem Film gegeben hat. Fttr jeden Film gibt es eine Variable, 
wobei jeder Variable eine Mehrzahl von Zustanden zugeordnet 
ist, wobei jeder Zustand jeweils einen Bewertungswert 
reprasentiert . Fttr jeden Kunden gibt es einen Datensatz, in 
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deia gespeichert ist, welcher Film welchen Bewertungswert 
erhalten hat. Wird ein neuer Film angeboten, so fehlen 
anfangs die Bewertungswerte fur diesen Film. Mittels der 
neuen Variante des EM-Lernverf ahrens ergibt sich nunmehr die 
MSglichkeit, das EM-Lernverf ahren bis zu dem Erscheinen des 
neuen Films nur mit den bis dorthin bekannten Filmen 
durchzuftthren, d.h. den neuen Film (d.h. allgemein den neuen 
Knoten in dem gerichteten Graphen) zunachst zu ignorieren. 
Erst mit Erscheinen des neuen Films wird das statistische 
Modell um eine neue Variable (einen neuen Knoten) dynamisch 
erganzt und die Bewertungen des neuen Films werden 
berttcksichtigt . Die Konvergenz des Verf ahrens im Sinne der 
log Likelihood ist dabei noch immer gewahrleistet; das 
Verfahren konvergiert sogar schneller. 

Im Folgenden wird erlautert, unter welchen Bedingungen 
fehlende Inf ormationen nicht berttcksichtigt werden miissen. 

Zur Erlauterung der Vorgehensweise wird folgende Notation 
verwendet. Mit H wird ein versteckter Knoten bezeichnet. Mit 
O = {p 1 , 0 2 , ... , 0 M } wird ein Satz von M beobachtbaren Knoten in 
dem gerichteten Graphen des statistischen Modells bezeichnet. 

Es wird ohne Einschrankung der Allgemeingttltigkeit im 
Folgenden ein Bayesianisches Wahrscheinlichkeitsmodell 
angenommen, welches gemafi folgender Vorschrift faktorisiert 
werden kann: ■ 



Es ist in diesem Zusammenhang anzumerken, dass die 
beschriebene Vorgehensweise auf jedes statistische Modell 
anwendbar ist, und nicht auf ein Bayesianisches 
Wahrscheinlichkeitsmodell beschrankt ist, wie sp&ter noch im 
Detail dargelegt wird. 




(2) 
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Mit Grofibuchstaben werden im Weiteren Zuf allsvariablen 
bezeichnet, wohingegen mit einem Kleinbuchstaben eine Instanz 
einer jeweiligen Zuf allsvariable bezeichnet wird. 

Es wird ein Datensatz mit N Datensatzelementen £>i' i = 1, ...,n} 

angenommen, wobei far jedes Datensatzelement nur ein Teil der 
beobachtbaren Knoten tatsachlich beobachtet wird. Fur das i- 
te Datensatzelement wird angenommen, dass die Knoten Xi 
beobachtet wird und dass die Beobachtungswerte der Knoten Yi 
f ehlen. 

Es gilt also: 

X ± ^JY ± = 0 ± . (3) 

Es ist zu bemerken, dass f\ir jedes Datensatzelement ein 
unterschiedlicher Satz von Knoten Xj beobachtet werden kann, 
d.h. dass gilt: 

X ± * Xj fUr i * j. (4) 
Die Indizes fttr vorhandene Knoten werden mit k bezeichnet, 



Knoten werden mit X bezeichnet, d.h. Y^ = , A, = 



Im Falle eines Bayesianischen Netzes weist das abliche EM- 
Lernverfahren die folgenden Schritten auf, wie oben schon 
kurz dargestellt: 

1) E-Schritt 



ssfp 71 , Hj i = 1,...,M (initialisiert mit „Nullen* gestartet, torn 
darauf basierend die SchSLtzungen (Sufficient Statistics- 
Werte) zu akkumulieren. Far jedes Datensatzelement oi werden 




die Indizes far nicht vorhandene 




Das Verfahren wird mit „leeren* Tabellen SS(h) und 
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die a posteriori Verteilung pfH^c-jJfttr den versteckten Knoten 
H sowie die a posteriori Verbund-Verteilung P^Yflxi) fur 
jeden der nicht vorhandenen Knoten Yi zusammen mit dem 
versteckten Knoten H berechnet. 

Fur jedes Datensatzelement i werden die Schatzungen fur das 
statistische Modell akkumuliert gemafl folgenden Vorschriften: 

SS(H) += £p(h|x ± ), (5) 



SS^C* = x£, h) += P^Xi) V vorhandeneri Knoten xf , (6 



Ss(y^, h) += P^Y^lxi) V nicht vorhandenen Knoten . 

(7) 

Mit dem Symbol += wird die Aktualisierung, d.h. die 
Akkumulation der Tabellen fur die Schatzungen gemafi den 
Werten der jeweiligen „rechten Seite" 1 der Gleichung 
bezeichnet . 

2) M-Schritt 

In dem M-Schritt werden die Parameter fur alle Knoten gemafi 
folgenden Vorschriften aktualisiert : 

P(H) oc SS(h), < 8 ) 

P^Ih) oc SS^h), O) 

wobei mit dem Symbol oc angegeben wird, dass die 
Wahrscheinlichkeits-Tabellen beim Obertragen von SS auf P zu 
normieren sind. 



Gemafi dem EM-Lernverf ahren werden die Erwartungswerte fur die 
nicht vorhandenen Knoten Yi berechnet und entsprechend den 
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Sufficient Statistics-Werten ftir diese Knoten gemafi 
Vorschrift (7) aktualisiert . 

Andererseits ist das Berechnen und Aktualisieren der Verbund- 
5 Verteilung p(k, Y^Jx-jJ fur alle Knoten Y^ e Y± sehr 

rechenaufwendig. Ferner ist das Aktualisieren der Verbund- 
Verteilung p(h, Y^|x.jJ ein Grund ftir das langsame Konvergieren 

des EM-Lernverf ahrens, wenn ein groJier Teil an Information 
fehlt. 

10 

Angenommen, die Tabellen werden mit Zuf allszahlen 
initialisiert, bevor das EM-Lernverf ahren gestartet wird. 

In diesem Fall entspricht die Ve rbund- Vert ei lung p(h, Y^lx-J im 

15 Wesentlichen diesen Zuf allszahlen im ersten Schritt. Dies 

bedeutet, dass die initialen Zuif allszahlen in den Sufficient 
Statistics-Werten berucksichtigt werden gemafi dem Verhaitnis 
der fehlenden Information bezogen auf die vorhandenen 
Information. Dies bedeutet, dass die initialen Zuf allszahlen 

20 in jeder Tabelle nur gemaB dem Verhaltnis der fehlenden 
Information bezogen auf die vorhandenen Information 
f ,gelSscht^ werden • 

• Im Folgenden wird bewiesen, dass ftir den Fall eines 
Bayesianischen Netzes als statistisches Modell der Schritt 
gemafi Vorschrift (7) nicht notwendig ist und somit 
weggelassen bzw. iibersprungen werden kann. 

Die Log-Likelihood des Bayesianischen Netzes als 
30 statistisches Modell ist gegeben durch: 



N / \ 

l[p] = x; io 3 p (£i)- 

i = l 



(10) 



« r 
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Fur frei vorgegebene Tabellen BfHjXjJ, welche hinsichtlich dem 
Knoten H normiert sind, ergibt sich far die Log-Likelihood: 

L[P] = E B(h|xi) log P^) 
i=l 

= Z Z B ( h k) p ^i' h ) - Z Z B ( h k) lo 3 p ( h k) 

i=lh i=lh 

5 

Die Summe ^ bezeichnet die Summe tiber alle Zustande h des 
h 

Knotens H. 

Unter Verwendung der f olgenden Def initionen ftir r[p, b] und 
10 H[P, B]: 

R[P,B]= EEB^IxJlogP^h) (12) 
i=lh 

h[p,b] = ZZ B (%i) lo g p (h|Si) < 13 > 
i=lh 

15 

ergibt sich ftir die Log-Likelihood gemafi Vorschrift (11) : 
L[P] = R[P, B] - H[P, b] . (14) 

20 

Allgemein gilt: 

H[P, B] < H[P, p], (15) 



25 da H[P, p] - h[p, b] die nicht-negative Kreuzentropie zwischen 
P^ijxi) und B(h|x ± ) darstellt. 
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In dem t-ten Schritt wird das aktuelle statistische Modell 
mit bezeichnet. Ausgehend von dem aktuellen 

statistischen Modell des t-ten Schrittes wird ein neues 

statistisches Modell P^ t+1 ^konstruiert derart, dass gilt: 



R^t+l^pCt^ R ^>(t) /P (t)]. 



(16) 



Es gilt: 

4?( t+i )j 



= R[?( t+1 ),B]-4>( t+1 ),B] 

(t+l) f p (t)]_ H ^(t+l) /P (t) 

(t), P (t)]-H^p(t)] 



= RP 



> RP 



(17) 



Die erste Zeile gilt allgemein fur alle B (vergleiche 
Vorschrift (14)). Die zweite Zeile der Vorschrift (17) 
insbesondere ftir den Fall, dass gilt: 



B 



= pW . 



(18) 



Die dritte Zeile gilt aufgrund Vorschrift (15) . Die letzte 
Zeile von Vorschrift (17) entspricht wiederum 
Vorschrift (14) . 

Somit ergibt sich, dass fur den Fall 

R ^,(t + D, P (t)j > R ^,(t), p (t)j 

sicher gilt: 

L^( t+1 )J> L^)J. (19) 

Es .ist auf den Unterschied zu dem Standard-EM-Lernverf ahren 
hinzuweisen [2], bei dem der R-Term definiert ist gemaii 
folgender Vorschrift: 
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R S tan dard [P/ B ] = £ £ B^ ± , hjxjlog P^i> Xi' h )« (20) 

i=lh,y i 

Es ist anzumerken, dass in dera Argument von P und B in der 
obigen Vorschrift (20) im Unterschied zu der Definition 
5 entsprechend den Vorschriften (12) und (13) auch dxe 
fehlenden GrSfien y auftreten. 

Eine Sequenz von EM-Iterationen wird gebildet derart, dass 
gilt: 

10 R s tan dard^t+l), p (t)j > R S tan dard^t), p (t)] . (21) 

Bei dam erf IndungsgamaUan Larnvarfahran wird £<lr dan Fall 
ainas Bayasianlschan Natzas aina Sequenz von EM-Iteratronen 
15 derart gebildet, dass gilt: 



(16) 



20 



25 



R |p(t+l),p(t)]> R^P^l- 

Nun wird gezeigt, dass die auf R, definiert geraaB Vorschrift 
7l2), zu La oben beschriebenen Lernverf ahren fUhrt, b.x dem 
Vorschrift (7) Ubersprungen wird Bei einem gegebenen 
aktuellen statistischen Modell ,£) zu einer deration J: »t 
es das Ziel des Verfahrens, ein neues statistxsches Modell 
P (t+1) in der Iteration t+1 zu berechnen, indem R|P, ^ J 
beztlglich P optimiert wird. Unter Verwendung der 
Faktorisierung gemafi Vorschrift (2) ergibt sxch: 

i = lh i = lhK = l 



30 



Standard-Aktualisierung der p(h) gemafi den Vorschriften (5) 
und (7) . 



Mit 



N 



SS(h) s ^ (t) (*i)logP(h) (23) 
ergibt sich der erste Term von Vorschrift (22) 



zu 
N 

2 £P (t; Hxi)logP(h) = £ss(h)logP(h), 
h i=l h 



(24) 



was im Wesentlichen der Kreuzentropie zwischen SS(h) und p(h) 
entspricht. Somit ist das optimale p(h) durch SS(h) gegeben. 
Dies entspricht dem M-Schritt gemafi Vorschrift (8) . 

Der zweite Term von Vorschrift (22) ftihrt zu einer EM- 
Aktualisierung fur die Tabellen der bedingten 
Wahrscheinlichkeiten p(o>), wie mittels der Vorschriften (6, 
und (9) beschrieben. Urn dies zu veranschaulichen werden alle 
dxe Terme in R gesammelt, welche abhangig sind von p[o % \e) . 
Diese Terme sind gegeben gemafi folgender Vorschrift: 

S ZP (t) (h|xi)logp(o>). 



i=l 



(25) 



N 

Die Summe £ bezeichnet die Summe uber alle Datenelement* 

i in dem Datensatz, wobei o* einer der beobachteten Knoten 
ist, d.h. bei dem gilt: 
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0 K e X ± . (26) 

Zusammenf assend kann der obige Ausdruck (25) als die 
Kreuzentropie zwischen p(o%) und den Sufficient Statistics- 
5 Werten, welche gemSJi Vorschrift (6) akkumuliert werden, 

interpretiert werden. Es ist somit nicht erforderlich, eine 
Aktualisierung gemafi Vorschrift (7) vorzusehen. Dies ist auf 

N K ± 
die Summe £ in Vorschrift (25) bzw. auf die Summe £ 
i=l k=1 

in Vorschrift (22) zuruckzuftihren. Diese Summe berttcksichtigt 
10 nur die beobachteten Knoten, im Gegensatz zu der Definition 
von R standard gemafi Vorschrift (20), in der auch die nicht 
beobachteten Knoten Yi berttcksichtigt werden. 

Im Folgenden wird in einem allgemeingiiltigeren Fall die 
15 Gtiltigkeit der Vorgehensweise, nicht beobachtete Knoten im 
Rahmen der Aktualisierung der Sufficient Statistics Tafeln 
nicht zu berttcksichtigen, dargelegt, womit gezeigt wird, dass 
die Vorgehensweise nicht auf ein so genanntes Bayesianisches 
Netz beschrankt ist. 



20 



Es wird ein Satz von Variablen Z = ^l 1 , Z 2 , ... , Z M } angenommen. 
Es wird ferner angenommen, dass das statistische Modell auf 
folgende Weise f aktorisierbar ist: 



25 p(z)= n<z°|nH), (27) 



wobei mit J~[ |z a ] die „Eltern* -Knoten des Knoten Z a in dem 

Bayesianischen Netz bezeichnet werden. Ferner wird ftir jeden 
Knoten Z ein Datensatz {z^, i = 1, ... ,n} mit N 
30 Datensatzelementen angenommen. Wie schon oben angenommen, 

wird auch in diesem Fall in jedem der N Datensatzelemente ein 
nur ein Teil der Knoten Z beobachtet. Ftir das i-te 
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Datensatzelement wird angenoinmen, dass die Knoten Xi 
beobachtet werden; die Knoten Xi werden nicht beobachtet und 
es gilt: 

Z = X ± v X± . (28) 

Fur jedes der N Datensatzelemente werden die nicht 
beobachteten Knoten Xi in zwei Untermengen Hi und Yi 
aufgeteilt derart, dass keiner der Knoten in den Mengen Xi 
und Hi ein abhangiger, d.h. nachf olgender Knoten („Kinder*- 
Knoten) eines Knotens in der Menge Yi ist. Anschaulich 
bedeutet das, dass Yi einem Zweig in einem Bayesianischen 
Netz entspricht, zu dent es keine Inf ormationen in den Daten 
gibt . 

Somit ergeben sich die Verbund-Verteilungen fur die Knoten Xi 
und Hi gemafl f olgender Vorschrift: 

pfeyHi)= n p MriM) nKHjiM)- ^ 

XeX ± HGHi 
1) E-Schritt 

Ftir jeden Knoten Z werden mit Null-Werten initialisierte 
Tabellen ss(z, f[ [zj gebildet bzw. bereitgestellt . Ftlr jedes 

Datensatzelement i in dem Datensatz werden die a posteriori 
Verteilung p(z, Y[ t z ^i = £i) berechnet und die Sufficient 

Statistics-Werte gemafi folgender Vorschrift akkumuliert ftlr 
jeden Knoten Z e und Z e : 

ss( z ,ni z ) += sfen&fc. = {3o) 

Die Sufficient Statistics-Werte der Tabellen, welche den 
Knoten in Xi zugeordnet sind, werden nicht aktualisiert . 



2) M-Schritt 
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Die Parameter (Tabellen) aller Knoten werden gemafi folgender 
Vorschrift aktualisiert : 



Anschaulich kann die Erfindung darin gesehen werden, dass ein 
breiter und einfacher (im Allgemeinen jedoch allerdings 
approximativer) Zugang zu der Statistik einer Datenbank 
(bevorzugt liber das Internet) durch Bildung statistischer 
Modelle far die Inhalte der Datenbank geschaffen wird. Somit 
werden die statistischen Modelle zur „Remote Diagnose*, zur 
so genannten „Remote Assistance" 1 oder zum ^Remote Research* 
liber ein Kommunikationsnetz automatisch versendet. Anders 
ausgedrtickt wird „Wissen* in Form eines statistischen Modells 
kommuniziert und versendet. Wissen ist haufig Wissen tiber die 
ZusammenhSLnge und wechselseitigen Abhangigkeiten in einer 
DomSne, beispielsweise tiber die Abhangigkeiten in einem 
Prozess. Ein statistisches Modell einer Domane, welches aus 
den Daten der Datenbank gebildet wird, ist ein Abbild all 
dieser Zusammenhange. Technisch stellen die Modelle eine 
gemeinsame Wahrscheinlichkeitsverteilung der Dimensionen der 
Datenbank dar, sind also nicht auf eine spezielle 
Auf gabenstellung eingeschrankt, sondern stellen beliebige 
Abhangigkeiten zwischen den Dimensionen dar. Komprimiert zu 
dem statistischen Modell lasst sich das Wissen Ober eine 
Domane sehr einfach handhaben, versenden, beliebigen Nutzern 
bereitstellen, etc. 




(31) 



Die Auflosung des Abbildes bzw. des statistischen Modells 
kann entsprechend den Anforderuhgen des Datenschutzes oder 
den Bedttrfnissen der Partner gewahlt werden. 
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Paten tanspriiche 

1. Verfahren zum rechnergesttitzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank, 

• bei dem ftir die erste Datenbank ein erstes statistisches 
Modell gebildet wird, welches die statistischen 
Zusammenhctnge der in der ersten Datenbank enthaltenen 
Datenelemente reprSLsentiert, 

• bei dem das erste statistische Modell in einem Server- 
Computer gespeichert wird, 

• bei dem das erste statistische Modell von dem Server- 
Computer iiber ein Kommunikationsnetz zu einem Client- 
Computer Ubertragen wird, 

• bei dem das empfangene erste statistische Modell von dem 
Client-Computer weiterverarbeitet wird. 

2. Verfahren gemaii Anspruch 1, 

bei dem unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
zweiten Datenbank ein statistisches Gesamt -Modell gebildet 
wird, welches zumindest einen Teil der in dem ersten 
statistischen Modell und in der zweiten Datenbank enthaltenen 
statistischen Information aufweist. 

3. Verfahren gemaJS Anspruch 1, 

• bei dem fiir eine zweite Datenbank ein zweites 
statistisches Modell gebildet wird, welches die 
statistischen Zusammenhange der in der zweiten Datenbank 
enthaltenen Datenelemente reprasentiert, 

• bei dem das zweite statistische Modell ttber das 
Kommunikationsnetz zu dem Client-Computer Ubertragen 
wird , ' 

• bei dem unter Verwendung des ersten statistischen 
Modells und des zweiten statistischen Modells von dem 
Client-Computer ein statistisches Gesamt-Modell gebildet 
wird, welches zumindest einen Teil der in dem ersten 
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statistischen Modell und in dem zweiten statistischen 
Modell enthaltenen statistischen Information aufweist. 

4. Verfahren gemafi Anspruch 3, 

• bei dem das zweite statistische Modell in einem zweiten 
Server-Computer gespeichert wird, 

• bei dem das zweite statistische Modell von dem zweiten 
Server-Computer liber ein Kommunikationsnetz zu dem 
Client-Computer iibertragen wird. 

5. Verfahren gemafi einem der Ansprttche 1 bis 4, 

bei dem mindestens eines der statistischen Modelle mittels 
eines skalierbaren Verfahrens gebildet wird, mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

6. Verfahren gemafi einem der Ansprtiche 1 bis 5, 

bei dem mindestens eines der statistischen Modelle mittels 
eines EM-Lernverf ahrens oder mittels eines 
gradientenbasierten Lernverf ahrens gebildet wird. 

7. Verfahren gemafi einem der Ansprtiche 1 bis 6, 

bei dem die erste Datenbank oder/und die zweite Datenbank 
Datenelemente aufweist/aufweisen, welche mindestens eine 
technische Anlage beschreiben. 

8. Verfahren gemafi Anspruch 7, 

bei dem die die mindestens eine technische Anlage 
beschreibenden Datenelemente zumindest teilweise an der 
technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 

9. Verfahren zum rechnergestUtzten Bilden eines statistischen 
Modells einer Datenbank, welche eine Vielzahl von 
Datenelementen aufweist, 
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bei dem ein EM-Lernverf ahren auf die Datenelemente 
durchgeftihrt wird, so dass zu einem vorgebbaren 
gerichteten Graph statistische Zusammenhange zwischen 
den Datenelementen ermittelt werden, 

wobei der gerichtete Graph Knoten und Kanten aufweist, 
wobei die Knoten vorgebbare beobachtbare Datenbank- 
Zustande und nicht beobachtbare Datenbank- Zustande 
beschreiben, 

bei dem im Rahmen des EM-Lernverf ahrens nur die 
Erwartungswerte ermittelt werden zu den beobachtbaren 
Datenbank- Zustanden sowie zu den nicht beobachtbaren 
Datenbank- Zustanden, deren Eltern-Datenbank-Zust&nde 
beobachtbare Datenbank-Zustande sind. 

Computer-Anordnung zum rechnergestiltzten Bereitstellen 
Datenbankinformation einer ersten Datenbank, 
mit einem Server-Computer, in dem ein erstes 
statistisches Modell, welches fur eine erste Datenbank 
gebildet ist, gespeichert ist, wobei das erste 
statistische Modell die statistischen Zusammenhange der 
in der ersten Datenbank enthaltenen Datenelemente 
represent iert, 

mit einem mit dem Server-Computer mittels eines 
Kommunikationsnetz gekoppelten Client-Computer, der 
eingerichtet ist zur Weiterverarbeitung des von dem 
Server-Computer ttber das Kommunikationsnetz zu dem 
Client-Computer iibertragenen ersten statistischen 
Modells • 

Computer-Anordnung gemafi Anspruch 10, 
bei der in dem Client-Computer eine zweite Datenbank mit 
Datenelementen gespeichert ist, 

wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Model Is unter Verwendung des ersten 
statistischen Modells und den Datenelementen der zweiten 
Datenbank, aufweist, wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten 
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statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist. 

12. Computer-Anordnung gemafl Anspruch 10, 

• mit einem zweiten Server-Computer, in dem ein zweites 
statistisches Modell, welches fttr eine zweite Datenbank 
gebildet ist, gespeichert ist, wobei das zweite 
statistische Modell die statistischen Zusammenhange der 
in der zweiten Datenbank enthaltenen Datenelemente 
reprasentiert, 

• wobei der Client-Computer mittels des 
Kommunikationsnetzes mit dem zweiten Server-Computer 
gekoppelt ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Model Is unter Verwendung des ersten 
statistischen Modells und des zweiten statistischen 
Modells, aufweist, wobei das statistische Gesamt -Modell 
zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell 
enthaltenen statistischen Information aufweist. 



200217402 




56 

Zusammenfassung 

Verfahren und Computer-Anordnung zum Bereitstellen von 
Datenbankinformation einer ersten Datenbank und Verfahren zum 
5 rechnergesttitzten Bilden eines statistischen Abbildes einer 
Datenbank 

Far die erste Datenbank wird ein erstes statistisches Abbild 
gebildet, welches die statistischen Zusammenh&nge der in der 

10 ersten Datenbank enthaltenen Datenelemente reprSsentiert . 
Anschliefiend wird das erste statistische Abbild in einem 
Server-Computer gespeichert und von diesem tiber ein 
KommunikationSnetz zu einem Client-Computer Ubertragen. Das 
empfangene erste statistische Abbild wird von dem Client - 

15 Computer weiterverarbeitet . 

Signifikante Figur 1 
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documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

□ BLACK BORDERS 

□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

^□'LINES OR MARKS ON ORIGINAL DOCUMENT 

□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 



